学習可能なプロジェクションによるLLMベースの音声認識におけるプロンプト感度の低減
大規模言語モデル(LLM)を用いた音声認識(ASR)において、人間が手動で設計する固定プロンプトの文言や配置が、単語誤り率(WER)などの性能に極めて大きな影響を与え、データセットごとに最適解が異なるという深刻な不安定性を引き起こしていることが本研究の体系的な調査によって明らかになりました。
最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。
Cog AI Archive
大規模言語モデル(LLM)を用いた音声認識(ASR)において、人間が手動で設計する固定プロンプトの文言や配置が、単語誤り率(WER)などの性能に極めて大きな影響を与え、データセットごとに最適解が異なるという深刻な不安定性を引き起こしていることが本研究の体系的な調査によって明らかになりました。
大規模言語モデル(LLM)を活用した音声認識システム(ASR)において、音声とテキストが対になっていないテキストのみのデータを用いて新しいドメインに適応させることは、音声とテキストの整合性を維持する観点から困難な課題であった。
人間3名とAIエージェント1名で構成される小集団において、相手がAIであるか人間であるかという「正体」のラベルは、公共財ゲームにおける協力行動のレベルや規範の形成に有意な影響を与えないことが本研究により明らかになりました。
大規模言語モデル(LLM)の微調整において、従来のLoRAは決定論的であり、確信がない場合でも過剰に自信を持って予測を行う「不適合(miscalibration)」という課題があったが、本研究はこれを解決する。
大規模言語モデル(LLM)において、悪意のある意図がそれと意味的に整合する文脈(コンテキスト)と組み合わさった際に安全制約が大幅に緩和される「意図・文脈結合(Intent-Context Coupling)」という現象を解明しました。
組合せ最適化問題の解決に不可欠なヒューリスティック設計を自動化する手法として、大規模言語モデル(LLM)を用いた自動ヒューリスティック設計(AHD)が注目されていますが、既存手法は固定ルールや静的プロンプトに依存し、探索履歴を十分に活用できないという課題がありました。
大規模言語モデルが自律型エージェントへと進化する中で、動的で膨大なコンテキストの管理が不可欠となっていますが、従来のベンチマークは静的な検索タスクに偏っており、エージェントと環境の複雑な相互作用をシミュレートできていないという課題がありました。
現代のデジタル環境は、OSの更新やデバイスの多様化、解像度の変化によって常にデータの分布が変動する「流動的(Flux)」な状態にあり、固定されたデータセットで学習した従来のGUIエージェントでは、未知のドメインや高解像度環境において性能が著しく低下するという課題がある。
ドメイン駆動設計(DDD)におけるメタモデル作成の自動化を目指し、Code Llama 7Bを4ビット量子化とLoRAを用いて、消費者向けGPUという限られた計算資源環境下で微調整した。 実世界のプロジェクトデータを用いた学習により、単純なプロンプトから構文的に正しいJSONオブジェクトを生成することに成功し、設計プロセスの効率化とリソース削減の可能性を示した。 評価指標としてBLEUスコアと損失関数を用い、明確なプロンプトでは100%の構文的正しさを達成したが、トークン制限による繰り返しやデータ分割に起因する構造的課題も確認された。
学習型画像圧縮(LIC)の訓練において、従来のAdam等の1次最適化手法はビットレートと歪みの目的関数間で生じる勾配競合により、収束の遅延や性能不足という課題を抱えていたが、本研究は2次準ニュートン最適化手法「SOAP」を導入することでこれを解決した。