本研究は、大規模言語モデル内の解釈可能な回路がどの学習データに由来するかを特定する「メカニスティック・データ・アトリビューション(MDA)」を提案します。影響関数を用いて特定のユニットと学習サンプルの因果関係を解明し、構造化データが回路形成を促進することを実証しました。これにより、モデルの学習軌道を制御する新たな手法を提示しています。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related