AI研究 2026-02-04 タグ: cs.CV, cs.AI

ビジョン表現においてグローバルな幾何学構造だけでは不十分である

視覚表現学習において、埋め込み分布の均一性や等方性といったグローバルな幾何学的規則性は、要素間の関係性を捉える「構成的結合（Compositional Binding）」能力を予測する指標としては機能せず、統計的にほぼ無相関であることを明らかにした。

論文図解

TL;DR（結論）

視覚表現学習において、埋め込み分布の均一性や等方性といったグローバルな幾何学的規則性は、要素間の関係性を捉える「構成的結合（Compositional Binding）」能力を予測する指標としては機能せず、統計的にほぼ無相関であることを明らかにした。幾何学的指標の代わりに、入出力ヤコビ行列の有効ランク（JER）として測定される「機能的感度」が、モデルが複雑なシーンの構造をどの程度正確に表現できているかを追跡する極めて強力な予測因子であることを、21種類のビジョンエンコーダを用いた調査で特定した。既存の学習目的関数は埋め込みの幾何学的構造を明示的に制約する一方で、局所的な写像構造を規定していないため、幾何学的な美しさだけを追求する従来の評価や設計では不十分であり、機能的感度を新たな補完的軸として導入すべきであると結論付けている。

なぜこの問題か

視覚表現学習の究極の目標は、下流の様々なタスクにおいて安定し、かつ汎用的に転用可能な振る舞いをサポートする埋め込みを生成することにある。近年のこの分野における進歩を支えてきた支配的な見解は「幾何学的」なものであり、表現の質は埋め込み分布のグローバルな規則性を強制することによって得られると考えられてきた。具体的には、表現の崩壊を避け、異方性を排除し、冗長性を削減することが重要視されている。この幾何学的な視点は、CLIPのような対照学習、DINOのような自己蒸留、あるいはBarlow TwinsやVICRegのような冗長性削減の手法など、現代の主要な自己教師あり学習の目的関数の多くを動機付けてきた。さらに、最近の理論的な主張では、特定の条件下で等方的なガウス分布が最適な埋め込み分布であると同定されるなど、幾何学的な完成度が表現能力の代用指標として暗黙のうちに扱われている。しかし、現実の視覚的なシーンは、単にどのような要素（物体や特徴）が存在するかという点だけでなく、それらの要素がどのように組み合わさっているか、すなわち構成的な構造によって定義される。…

核心：何を提案したのか

本研究の核心的な提案は、視覚表現の質を評価するための新たな軸として「機能的感度（Functional Sensitivity）」を導入することである。従来の評価が埋め込み空間内でのデータの分布という「静的な幾何学」に焦点を当てていたのに対し、提案手法は入力の変化がどのように出力の変化へと変換されるかという「動的な写像」の性質を重視する。具体的には、エンコーダの入出力ヤコビ行列の有効ランク（Jacobian Effective Rank, JER）を測定することで、モデルが入力の局所的な変化に対してどれだけ多様で独立した応答を返せるかを定量化する。これは、埋め込みの分布を単に眺めるのではなく、モデルという関数の感度そのものを診断するアプローチである。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。