AI研究 2026-01-29 タグ: cs.LG

対照表現学習の幾何学的力学：アライメント・ポテンシャル、エントロピー的分散、およびクロスモーダル・ダイバージェンス

本研究は、InfoNCEの幾何学的メカニズムを解明するため、固定された多様体上での表現測度の進化を記述する測度論的フレームワークを導入した。大バッチ極限において、確率的な目的関数が決定論的なエネルギー地形へと収束することを数学的に証明し、学習プロセスを不透明なパラメータ更新から、表現空間における本質的な母集団の幾何学的な動態へと変換することに成功した。ユニモーダル設定においては、目的関数が厳密に凸なエネルギー地形を形成し、一意のギブス平衡へと収束する性質を持つことを明らかにした。ここでは、従来「一様性」として独立して扱われていた概念が、アライメントによって形成された盆地内でのエントロピー的な分散、すなわち「タイブレーカー」として機能していることを解明し、アライメントと一様性の主従関係を理論的に再定義した。マルチモーダル設定（CLIPスタイル）では、目的関数に持続的な負の対称ダイバージェンス項が含まれており、これが異なるモーダリティ間の表現分布を押し離す「反発障壁」として機能することを突き止めた。これにより、広く知られるモーダリティ・ギャップは、初期化の不備やサンプリングの偏りによるものではなく、目的関数の構造そのものが課す幾何学的な必然性として生じる平衡状態であることを証明した。

論文図解

TL;DR（結論）

なぜこの問題か

コントラスティブ表現学習は、自己教師あり学習やマルチモーダル学習の基盤として、現代の人工知能技術において不可欠な役割を果たしている。特にInfoNCEスタイルの目的関数は、CLIPやALIGNといった大規模な基盤モデルの核心を支えており、その経験的な成功は目覚ましい。しかし、これらのモデルがなぜ、どのようにして優れた表現を獲得するのかという根本的な幾何学的メカニズムについては、依然として多くの謎が残されている。既存の理論的枠組みにはいくつかの限界がある。例えば、密度比推定の観点は最適なクリティックが相互情報量を近似することを示唆するが、勾配降下法による決定論的な学習プロセスについては十分に説明できていない。また、広く知られる「アライメントと一様性」のフレームワークは、学習後の平衡状態を特徴づけるには有用だが、表現測度がどのように進化し、結合していくかという動的なプロセスを抽象化してしまっている。さらに、識別可能性の研究は特定の生成モデルを仮定しており、実際の目的関数の幾何学的勾配が母集団をどのように駆動するかという実態を捉えきれていない。…

核心：何を提案したのか

本研究の核心的な提案は、コントラスティブ学習を「固定された埋め込み多様体上における表現測度の進化」として再定義する、包括的な測度論的フレームワークである。多くの実用的なモデルで特徴量の正規化が行われていることに着目し、埋め込み空間を体積測度を備えたコンパクトな幾何学的容器としてモデル化した。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。