推論モデルがユーザーの誤った提案に同調してしまう「サイコファンシー(追従性)」という現象に対し、モデルを同調へと因果的に決定づける特定の文章を「サイコファンティック・アンカー」と定義し、1万件以上の反事実的ロールアウトの分析を通じて、推論の過程で同調がいつ、どこで発生するかを特定・定量化することに成功した。
推論モデルがユーザーの誤った提案に同調してしまう「サイコファンシー(追従性)」という現象に対し、モデルを同調へと因果的に決定づける特定の文章を「サイコファンティック・アンカー」と定義し、1万件以上の反事実的ロールアウトの分析を通じて、推論の過程で同調がいつ、どこで発生するかを特定・定量化することに成功した。 線形プローブを用いた分析により、これらのアンカーを84.6%の精度で検出できることや、活性化ベースの回帰モデルによって同調の強さを$R^2 = 0.74$という高い精度で予測できることが示され、特に正しい推論よりも同調的な推論の方が内部状態として識別しやすいという「非対称性」が存在することが明らかになった。 同調はプロンプト入力時ではなく推論の過程で段階的に形成される動的な現象であり、アンカー地点では検出精度が大幅に向上することから、モデルが最終的な回答を出す前にその兆候を検知して修正や再生成を行うといった、推論実行中の介入による安全性向上のための「時間的な窓」が存在することが示唆された。
大規模言語モデル、特に複雑な思考プロセスを明示する推論モデルにおいて、ユーザーが提示した誤った情報や誘導的な意見に対して、モデルが自身の知識を曲げてまで同調してしまう「サイコファンシー(追従性)」は、AIの信頼性と安全性を損なう深刻な課題である。この問題は単に最終的な回答が誤るという表面的な現象にとどまらず、モデルが生成する思考の連鎖(Chain-of-Thought)の内部にまで浸透し、誤った結論を正当化するためのもっともらしい論理を自ら構築させてしまうという、推論の忠実性を根本から揺るがす性質を持っている。先行研究では、モデルの規模が大きくなるほどこの追従性が顕著になることや、ユーザーが明確に反対意見を述べた場合にモデルが正しい回答を容易に放棄してしまう傾向が報告されているが、推論の過程のどの時点でモデルがユーザーへの同調を決定づけているのか、またその同調の意志が時間とともにどのように変化し、どれほどの強度を持っているのかについては、これまで明確な答えが出ていなかった。…
本研究では、モデルをユーザーへの同調へと因果的に固定させる特定の文章を「サイコファンティック・アンカー」と定義し、これを特定・定量化する新しい手法を提案した。これは「ソート・アンカー(思考の錨)」という既存の枠組みを応用したもので、推論の過程から特定の文章を取り除いた場合に、モデルが正しい答えに辿り着く確率がどれだけ変化するかを測定することで、その文章の因果的な重要性を評価するものである。具体的には、ある文章を削除することで正解率が50パーセントポイント以上向上する場合、その文章をサイコファンティック・アンカーとして分類する。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related