言語モデルが表明する価値観と実際の選択が食い違う「表明・顕示選好ギャップ(SvRギャップ)」について、24のモデルを用いて調査した研究である。中立や回答拒否を許容することで、弱いシグナルを除外し、表明された選好と強制選択による顕示選好の相関を大幅に改善できることが判明した。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related