継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

R1-SyntheticVL:生成モデルによる合成データはマルチモーダル大規模言語モデルへの準備ができているか?

マルチモーダル大規模言語モデル(MLLM)の進化において、高品質な学習データの不足とアノテーションコストの増大が深刻な課題となっており、特に複雑な推論を必要とする実世界のタスクに対応するための思考の連鎖(CoT)を含むデータの入手は極めて困難です。

5769 字
読む →

選択の学習:高密度検索のためのクエリを考慮した適応的次元選択

高密度検索における埋め込み表現の冗長性とノイズを排除するため、クエリごとに最適な次元を動的に選択する「クエリ適応型次元選択フレームワーク」が提案され、検索精度の向上と計算効率の両立が実証されました。

5894 字
読む →

エントロピーゲート付き選択的方策最適化:大規模言語モデルのハイブリッド学習のためのトークンレベルの勾配割り当て

大規模言語モデルの学習において、教師あり微調整(SFT)と強化学習(RL)をトークン単位で動的に組み合わせる新しいフレームワーク「EG-SPO」が提案されました。この手法は予測エントロピーに基づき、不確実なトークンには探索を促すフル更新を、確信度の高いトークンには分散を抑える減衰更新を適用することで、学習の安定性と効率を両立させています。 数学的推論ベンチマークにおいて、既存のハイブリッド学習手法であるCHORD-φを最大3.8%上回る精度向上を達成しつつ、計算コストの増加をわずか3.4%に抑えることに成功しました。特に、低エントロピーのトークンに対してもアドバンテージ関数を保持することで、モデルが誤った回答を自信満々に出力した際にその誤りを強化してしまう「確信力のある誤り」の再強化を効果的に防いでいます。 本手法は、モデルが生成した回答内の全トークンを一律に扱うのではなく、学習信号の大部分を占める少数の重要なトークンに焦点を当てることで、限られた計算資源で最大限の性能を引き出すことを可能にしました。

6017 字
読む →

Memora: 抽象化と具体性のバランスを両立する調和型メモリ表現

MEMORAは、自律エージェントが膨大な情報を蓄積しながら効率的かつ文脈に応じた検索を行うために開発された、抽象化と具体性のバランスを構造的に両立させる「調和型メモリ表現」である。情報の核となる「主要な抽象化」が具体的な「メモリ値」をインデックス化し、関連する更新を統合することで情報の断片化を防ぎつつ、多角的なアクセス経路となる「キュー・アンカー」によってメモリ間の広範な接続性を実現する。検索を能動的な推論プロセスとして扱うポリシー駆動型メカニズムを導入した結果、従来のRAGや知識グラフを上回る精度を達成し、フルコンテキスト処理と比較してトークン消費量を最大98%削減することに成功した。LoCoMoやLongMemEvalといったベンチマークで最高水準の性能を記録し、長期的な推論能力を大幅に向上させている。

6260 字
読む →

Tiled Prompts: 画像およびビデオ超解像におけるプロンプトの不十分さの克服

高解像度の画像やビデオの超解像処理において、画像全体を説明する単一のグローバルプロンプトでは、分割された各タイル領域の細部を正確に復元するための情報が不足し、誤った誘導が生じる「プロンプトの不十分さ」という問題が明らかになりました。

5736 字
読む →

GFlowPO: 言語モデルプロンプトオプティマイザとしての生成フローネットワーク

GFlowPOは、言語モデルのプロンプト探索を潜在的なプロンプトに対する事後分布推論の問題として定式化し、生成フローネットワーク(GFlowNet)を活用して効率的に最適化を行う新しい確率的フレームワークです。

5711 字
読む →

MeKi: 効率的なLLMスケーリングのためのメモリベースの専門知識注入

スマートフォンなどのエッジデバイスにおいて、計算量やメモリ消費を抑えつつモデルの能力を向上させるため、ストレージ(ROM)を活用して知識を注入する新しいアーキテクチャ「MeKi」が提案されました。

5759 字
読む →

長期ホライゾンのオフライン・ゴール条件付き強化学習のためのゴールの連鎖階層的方策

従来のオフライン階層的強化学習は、高レベルと低レベルのネットワークが分離されているため、複雑なタスクで最終ゴールを見失いやすく、単一の中間ゴールしか生成できないという構造的な限界を抱えていました。

6563 字
読む →

リスク意識の注入:有用性を損なうことなく安全性のために視覚言語モデルを較正する

視覚言語モデル(VLM)は、視覚情報の統合によって本来の安全ガードレールが機能しなくなる「リスク信号の希釈」という課題を抱えており、画像や動画を悪用したマルチモーダルな脱獄攻撃に対して極めて脆弱です。

7466 字
読む →

DiscoverLLM:意図の実行から発見へと導く大規模言語モデルの学習フレームワーク

ユーザーが自身の望みを完全には言語化できていない「未形成の意図」を持つ状況において、従来の大規模言語モデルは具体的な質問を繰り返すだけであり、ユーザーが答えを持っていない場合には効果的に機能しないという課題がありました。

6330 字
読む →