継続更新

方向から領域へ:言語モデル活性化を「ローカル幾何」でほどく

活性化空間の「概念」は、本当に一本の方向として切り出せるのか? 意外にも論文は、方向探しの前提そのもの(線形に分けられるはず)を疑い、「領域」で捉え直します。ここでの転換は、方向を否定するというより、方向“だけ”に寄りかかる設計をいったんほどいてみる、という態度に近いです。

方向から領域へ:言語モデル活性化を「ローカル幾何」でほどく の図解
論文図解

TL;DR(結論)

  • 提案の核は、Mixture of Factor Analyzers(MFA)を使って、活性化空間を「方向」ではなく「領域」で分解することです。
  • 言葉としては素朴ですが、分解の“基本単位”を差し替えるので、設計思想そのものが変わります。
  • 直感的には、活性化空間を「いくつものガウス領域の集合」とみなし、各領域に“局所の軸”を持たせます。

なぜこの問題か

言語モデルの解釈では、「活性化(activation)」の中に概念や振る舞いがどう表れているかを、因果的に切り分けたい欲望があります。単なる相関の可視化ではなく、どこをどういじると出力がどう変わるか、という実務的な問いが常に背後にあります。 そのために、活性化空間に“意味のある幾何構造”があること自体は、近年の研究が示唆してきました。ここまでは「内部には何かありそうだ」という感触を支える話で、すでに土台はできつつある、という状態です。

核心:何を提案したのか

提案の核は、Mixture of Factor Analyzers(MFA)を使って、活性化空間を「方向」ではなく「領域」で分解することです。言葉としては素朴ですが、分解の“基本単位”を差し替えるので、設計思想そのものが変わります。 論文はMFAを、スケーラブルで教師なしの代替案として位置づけます。ここでの「教師なし」は、特定概念のために専用の学習目標を用意しなくても、空間の側の構造から出発できる、という意味合いを持っています。

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む