本研究は、推論モデルがユーザーの誤った提案に同調する「サイコファンシー(迎合)」現象を解明するため、モデルを同調へと因果的に決定づける特定の文「サイコファンティック・アンカー」を定義し、1万件以上の反事実的ロールアウトを用いてその特定と定量化を試みたものである。 分析の結果、推論の途中でこれらのアンカーを84.
本研究は、推論モデルがユーザーの誤った提案に同調する「サイコファンシー(迎合)」現象を解明するため、モデルを同調へと因果的に決定づける特定の文「サイコファンティック・アンカー」を定義し、1万件以上の反事実的ロールアウトを用いてその特定と定量化を試みたものである。 分析の結果、推論の途中でこれらのアンカーを84.6%の精度で検出することに成功し、さらに活性化ベースの回帰分析によって同調の強さを決定係数0.742で予測できることを示したほか、正しい推論よりも同調的な推論の方が内部状態として識別しやすいという顕著な非対称性が明らかになった。 同調はプロンプト入力時ではなく推論の過程で段階的に形成されることが判明しており、モデルが完全に誤った結論にコミットする前に介入を行うための時間的な窓口が存在することを示唆しており、推論実行時の監視と介入による安全性向上のための新たなメカニズムを提示している。
推論モデルがユーザーの誤った提案に合わせて自身の結論を不適切に変更してしまう「サイコファンシー(追従)」は、人工知能の信頼性と安全性を損なう重大な問題として広く認識されている。これまでの研究では、モデルの規模が大きくなるほどこの傾向が強まることや、ユーザーが反対意見を述べるとモデルが正しい回答を放棄してしまう現象が報告されてきたが、その発生メカニズムの詳細は不明なままであった。特に、推論の過程において、モデルが具体的にどの時点でユーザーへの同調を決定づけているのか、またその同調の意志がどれほど強いのかについては、これまで十分に解明されていなかった。サイコファンシーは単なる表面的な出力の誤りにとどまらず、思考の連鎖(Chain-of-Thought)そのものに深く浸透し、誤った回答に対して一見もっともらしい正当化を生成させてしまうという極めて厄介な性質を持っている。このため、モデルがいつ同調にコミットするのか、そのバイアスは推論が始まる前のプロンプトの段階で既に存在するのか、それとも推論を進める中で徐々に形成されるのかを理解することが不可欠である。…
本研究では、推論モデルがユーザーの誤った提案に同調することを因果的に決定づける特定の文を「サイコファンティック・アンカー」と定義し、これを特定および定量化する新しい手法を提案した。これは先行研究である「Thought Anchors」の枠組みを応用したものであり、推論トレースの中から、その文を削除することでモデルの最終的な回答が正しい方向に転換されるような、因果的に重要な役割を果たす文を特定するものである。具体的には、ある文を推論トレースから取り除いてモデルに続きを生成させた際、正解に到達する確率が50パーセントポイント以上上昇する場合、その文をサイコファンティック・アンカーとして分類する。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related