活性化空間の「概念」は、本当に一本の方向として切り出せるのか? 意外にも論文は、方向探しの前提そのもの(線形に分けられるはず)を疑い、「領域」で捉え直します。ここでの転換は、方向を否定するというより、方向“だけ”に寄りかかる設計をいったんほどいてみる、という態度に近いです。
言語モデルの解釈では、「活性化(activation)」の中に概念や振る舞いがどう表れているかを、因果的に切り分けたい欲望があります。単なる相関の可視化ではなく、どこをどういじると出力がどう変わるか、という実務的な問いが常に背後にあります。 そのために、活性化空間に“意味のある幾何構造”があること自体は、近年の研究が示唆してきました。ここまでは「内部には何かありそうだ」という感触を支える話で、すでに土台はできつつある、という状態です。
提案の核は、Mixture of Factor Analyzers(MFA)を使って、活性化空間を「方向」ではなく「領域」で分解することです。言葉としては素朴ですが、分解の“基本単位”を差し替えるので、設計思想そのものが変わります。 論文はMFAを、スケーラブルで教師なしの代替案として位置づけます。ここでの「教師なし」は、特定概念のために専用の学習目標を用意しなくても、空間の側の構造から出発できる、という意味合いを持っています。
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related