保持を超えて:LLMの継続学習における構造的安全性と可塑性の調整
大規模言語モデルの継続学習において、従来の経験再生(ER)が自然言語処理のような「頑健なタスク」には有効である一方、コード生成のような論理構造が重要な「脆弱なタスク」を破壊するという二分法を明らかにしました。
最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。
Cog AI Archive
大規模言語モデルの継続学習において、従来の経験再生(ER)が自然言語処理のような「頑健なタスク」には有効である一方、コード生成のような論理構造が重要な「脆弱なタスク」を破壊するという二分法を明らかにしました。
機械学習モデルを単なる予測器ではなく、センサーデータ等から物理量などを算出する「測定機器」として利用する場面が増えていますが、従来の汎化性能や頑健性の指標だけでは、モデルが何を測定しているかを十分に評価できないという問題があります。
本研究は、大規模言語モデル(LLM)の関数呼び出しにおいて、関数の引数(パラメータ)ごとに明示的な推論プロセスを組み込む新フレームワーク「TAFC」を提案した。 従来の関数呼び出しが抱えていた「パラメータ生成時の推論の不透明性」を解消するため、関数シグネチャに「think」パラメータを追加し、モデルが意思決定の根拠を記述してから値を生成する仕組みを導入している。 ToolBenchを用いた検証では、GPT-4oやLlama-3.1などの主要モデルにおいて、特に複雑な複数パラメータを持つ関数の生成精度と推論の整合性が大幅に向上し、小規模モデルでも顕著な改善が確認された。
大規模言語モデル(LLM)の安全性向上を目的として、攻撃者(MRed)、防御者(MBlue)、評価者(MEval)の3つの役割が互いに学習し合う閉ループ強化学習フレームワーク「TriPlay-RL」が提案されました。
Temp-R1は、動的な事実と複雑な時間的制約を伴う知識グラフ質問応答(TKGQA)を解決するために開発された、強化学習ベースの統合自律エージェントである。 単一の思考タグによる認知負荷を分散させるため、内部アクションとして計画、フィルタリング、順位付けを導入し、さらに難易度の高い問題から学習を開始する逆カリキュラム学習を採用した。 80億パラメータのモデルでありながら、複雑な質問において既存手法を19.8%上回る精度を達成し、GPT-4oベースのシステムを凌駕する新たな状態最新(SOTA)を確立した。
大規模言語モデルの量子化において、従来の英語のみを用いたキャリブレーション手法が多言語モデルの性能を制限していることを明らかにし、非英語および多言語混合データセットを用いることで、モデル全体のパープレキシティを最大3.52ポイント改善できることを示した。 Llama3.1 8BやQwen2.
従来のテキストから可視化を行うシステムは、単一の入力形式や一度限りの生成プロセス、柔軟性に欠けるワークフローといった限界を抱えており、大規模言語モデル(LLM)を用いた手法でも無限ループや致命的な失敗といった信頼性の問題が課題となっていました。
本研究は、音源定位(SSL)の増分学習において、特定の方向のデータが極端に多い「タスク内不均衡」と、タスク間でクラス分布が重なり歪む「タスク間不均衡」の二重の課題を解決する新フレームワーク「SSL-GCIL」を提案しました。
大規模言語モデル(LLM)が、文脈上の新しいルールよりも学習済みの事前知識を優先してしまう「意味的慣性」という問題を特定し、パズルゲーム「Baba Is You」を用いてその影響を定量的に評価しました。
アイオワ・ライターズ・ワークショップ等の名門校に所属する28名の専門作家と3つの大規模言語モデルを対象に、著名な作家50名の文体を模倣する能力を比較する大規模な行動実験が行われました。 文脈内学習のみの条件では専門家は82.