継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

対照表現学習の幾何学的力学:アライメント・ポテンシャル、エントロピー的分散、およびクロスモーダル・ダイバージェンス

本研究は、InfoNCEの幾何学的メカニズムを解明するため、固定された多様体上での表現測度の進化を記述する測度論的フレームワークを導入した。大バッチ極限において、確率的な目的関数が決定論的なエネルギー地形へと収束することを数学的に証明し、学習プロセスを不透明なパラメータ更新から、表現空間における本質的な母集団の幾何学的な動態へと変換することに成功した。 ユニモーダル設定においては、目的関数が厳密に凸なエネルギー地形を形成し、一意のギブス平衡へと収束する性質を持つことを明らかにした。ここでは、従来「一様性」として独立して扱われていた概念が、アライメントによって形成された盆地内でのエントロピー的な分散、すなわち「タイブレーカー」として機能していることを解明し、アライメントと一様性の主従関係を理論的に再定義した。 マルチモーダル設定(CLIPスタイル)では、目的関数に持続的な負の対称ダイバージェンス項が含まれており、これが異なるモーダリティ間の表現分布を押し離す「反発障壁」として機能することを突き止めた。これにより、広く知られるモーダリティ・ギャップは、初期化の不備やサンプリングの偏りによるものではなく、目的関数の構造そのものが課す幾何学的な必然性として生じる平衡状態であることを証明した。

5895 字
読む →

GMS-CAVP:マルチスケールの対照学習および生成的事前学習による視聴覚対応の改善

GMS-CAVPは、映像と音声の間の意味的・時間的な対応関係を高度にモデル化するため、マルチスケールでの対照学習と拡散モデルベースの生成学習を統合した新しい視聴覚事前学習フレームワークである。 従来の単一スケールによるグローバルな整列の限界を克服するため、階層的な空間・時間構造を捉える「マルチスケール空間・時間整列(MSA)」と、モダリティ間の翻訳能力を高める「マルチスケール空間・時間拡散(MSD)」を導入している。 VGGSound、AudioSet、Panda70Mを用いた大規模な実験において、映像からの音声生成および双方向検索の双方で従来手法を大幅に上回る世界最高水準の性能を達成し、高い同期性と音響品質を証明した。

5982 字
読む →

方策事前分布を用いた安全な探索

強化学習エージェントが実世界で学習する際、壊滅的な失敗を避けるための「安全な探索」が不可欠であり、本研究ではオフラインデータやシミュレータから得られる不完全だが保守的な「方策事前分布」を活用する新しいアルゴリズムであるSOOPERを提案した。

6184 字
読む →

R^3:LLM強化学習のためのリプレイ、リフレクション、およびランキング報酬

大規模言語モデルの強化学習において、グループ内の回答がすべて正解または不正解になり学習信号が消失する「アドバンテージの崩壊」を解決するため、過去の履歴を活用するリプレイ(CCR)、自己反省を促すリフレクション(ISR)、未完の回答をエントロピーで評価するランキング報酬(SERR)を組み合わせた新手法「R³」を提案しました。 この手法をDeepSeek-R1-Distill-Qwen-1.5Bに適用した結果、数学ベンチマークにおいて従来の1.5Bモデルを大幅に上回るだけでなく、パラメータ数が数倍大きい7B規模の既存モデルをも凌駕する性能を達成し、より少ない推論トークン数で効率的に正解に到達できることが実証されました。 具体的には、数学の難問セットであるAIME24において、ベースモデルの28.12から47.50へとスコアをほぼ倍増させ、さらに学習プロセスにおいて人間によるプロセス報酬の注釈を必要としない教師なしの報酬設計を実現することで、計算リソースの効率化と推論能力の深化を両立させています。

5989 字
読む →

スケーラブルなビジョンモデル初期化のための自己教師あり重みテンプレート

現代の視覚モデルの急速な大規模化に伴い、特定のサイズで事前学習されたモデルを異なる規模のアーキテクチャに適応させる際の膨大な計算コストが課題となっているが、本研究はこの問題を解決するために、Tucker分解に基づく構造的制約を用いた自己教師あり学習フレームワークであるSWEETを提案した。

5962 字
読む →

不変軌道学習による一般化可能なマルチモーダル大規模言語モデル編集

マルチモーダル大規模言語モデル(MLLM)の知識編集において、従来の固定的なマッピングが引き起こす「因果的な過小適合」と「因果的な過学習」を解決するため、編集を分布外(OOD)汎化問題として再定義しました。

5812 字
読む →

正則化$f$-ダイバージェンス・カーネル検定

本研究は、$f$-ダイバージェンスの族に基づく新しいカーネル二標本検定の枠組みを提案し、正則化された変分表現とカーネル法による尤度比推定を組み合わせることで、多様な分布間の差異を統計的に検出可能にしました。

5742 字
読む →

タスクIDなし・カテゴリ重複ありのストリーミング環境に対応する連合継続学習「FedKACE」

連合学習において、データが連続的に流入し、かつ新旧データ間でカテゴリが重複しながらもタスクの境界を示す識別子(タスクID)が存在しないという、極めて実世界に近い「ストリーミング連合継続学習」の設定を定義し、その特有の課題である知識の混乱や忘却の問題を明確化しました。

6219 字
読む →

勾配ベースの重要度推定によるニューラルネットワークコントローラのためのコンポーネントを考慮したプルーニングフレームワーク

従来のニューラルネットワーク制御器の圧縮手法は、重みの絶対値に基づく静的な指標に依存しており、複数のコンポーネント間の複雑な依存関係や機能的な重要性を十分に考慮できていないため、過酷な圧縮条件下で制御性能や安定性が著しく低下するという課題がありました。

5877 字
読む →

効率的な探索の教師なし学習:自己課した目標による適応的な方策の事前学習

本研究は、外部報酬のない環境でエージェントが自律的に目標を設定し、効率的な探索と適応能力を習得するための教師なしメタ学習フレームワーク「ULEE」を提案しました。 従来の「現在の達成しやすさ」に基づくカリキュラムとは異なり、ULEEは「一定期間の適応後に達成可能な性能」を予測し、能力の境界にある適切な難易度の目標を敵対的に生成する仕組みを導入しています。 検証の結果、ULEEで事前学習されたエージェントは、未知の目的や環境構造、動特性に対しても優れた適応能力を示し、従来の学習手法を大幅に上回る汎用性を実証しました。

5956 字
読む →