R1-SyntheticVL:生成モデルによる合成データはマルチモーダル大規模言語モデルへの準備ができているか?
マルチモーダル大規模言語モデル(MLLM)の進化において、高品質な学習データの不足とアノテーションコストの増大が深刻な課題となっており、特に複雑な推論を必要とする実世界のタスクに対応するための思考の連鎖(CoT)を含むデータの入手は極めて困難です。
最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。
Cog AI Archive
マルチモーダル大規模言語モデル(MLLM)の進化において、高品質な学習データの不足とアノテーションコストの増大が深刻な課題となっており、特に複雑な推論を必要とする実世界のタスクに対応するための思考の連鎖(CoT)を含むデータの入手は極めて困難です。
大規模言語モデルの学習において、教師あり微調整(SFT)と強化学習(RL)をトークン単位で動的に組み合わせる新しいフレームワーク「EG-SPO」が提案されました。この手法は予測エントロピーに基づき、不確実なトークンには探索を促すフル更新を、確信度の高いトークンには分散を抑える減衰更新を適用することで、学習の安定性と効率を両立させています。 数学的推論ベンチマークにおいて、既存のハイブリッド学習手法であるCHORD-φを最大3.8%上回る精度向上を達成しつつ、計算コストの増加をわずか3.4%に抑えることに成功しました。特に、低エントロピーのトークンに対してもアドバンテージ関数を保持することで、モデルが誤った回答を自信満々に出力した際にその誤りを強化してしまう「確信力のある誤り」の再強化を効果的に防いでいます。 本手法は、モデルが生成した回答内の全トークンを一律に扱うのではなく、学習信号の大部分を占める少数の重要なトークンに焦点を当てることで、限られた計算資源で最大限の性能を引き出すことを可能にしました。
現代の材料科学における高次元かつ極めてデータが不足している環境下で、効率的に目標を達成するための情報理論に基づいた新しい適応的サンプリングの枠組みが提案されました。この手法は、全探索空間を近似するのではなく、目標に関連する「軌道」を特定することに焦点を当て、次元を考慮した情報予算管理や、カルマンフィルタに着想を得たマルチモデル融合を組み合わせています。14種類の材料設計タスクと複雑な数理ベンチマークを用いた検証により、わずか100回程度の評価でトップクラスの性能を持つ領域に到達できる高いサンプル効率と、多様な問題に対する堅牢性が実証されました。
本研究は、分散学習におけるビザンチン故障への対策を「不正確な勾配オラクル」という統一的な理論枠組みに統合し、従来の場当たり的な解析手法を刷新しました。 この枠組みに基づき、通信効率を劇的に改善する「ネステロフ型加速アルゴリズム」と、サーバー側の補助情報を活用して収束を早める「PIGS法」の2つを新たに提案しました。
LLMエージェントの失敗を事前に検知する批判モデルは、たとえAUROC 0.94という極めて高い予測精度を持っていても、実際の運用時に介入を行うとエージェントの思考プロセスを破壊し、性能を大幅に低下させるリスクがあることが判明しました。
高解像度の画像やビデオの超解像処理において、画像全体を説明する単一のグローバルプロンプトでは、分割された各タイル領域の細部を正確に復元するための情報が不足し、誤った誘導が生じる「プロンプトの不十分さ」という問題が明らかになりました。
音声の事前学習モデルは、画像用モデルとは異なり、構造化された意味情報よりも低レベルなスペクトル情報に強く依存しているため、既存の持続的学習手法を適用するとセッション間で極めて大きな表現シフトが発生し、深刻な破滅的忘却を引き起こすことが本研究の分析によって解明された。
GFlowPOは、言語モデルのプロンプト探索を潜在的なプロンプトに対する事後分布推論の問題として定式化し、生成フローネットワーク(GFlowNet)を活用して効率的に最適化を行う新しい確率的フレームワークです。
スマートフォンなどのエッジデバイスにおいて、計算量やメモリ消費を抑えつつモデルの能力を向上させるため、ストレージ(ROM)を活用して知識を注入する新しいアーキテクチャ「MeKi」が提案されました。
手書き数式認識(HMER)において、従来の逐次的な生成手法ではなく、離散拡散モデルを用いた反復的なシンボル洗練プロセスを提案した。この手法は、先行する予測の誤りが後続に影響する露呈バイアスを排除し、複雑な二次元構造を持つ数式の認識精度を大幅に向上させる。