ToMBench-Hardで社会的推論のショートカットを露出させ、SIPに沿う多次元報酬で推論過程全体を監督するSocial-R1を提案した論文です。
社会的推論は、数学やコードのように答え合わせしやすい領域より厄介です。相手が何を知っていて、何を誤解していて、どう感じていて、どんな意図で話しているかは、文章中の明示情報だけでは決まりません。人間はふつう、文脈、関係性、暗黙の前提、言い方のニュアンスをまとめて読んで判断しますが、LLM はここでしばしば近道に流れます。
提案は二つあります。第一が ToMBench-Hard、第二が Social-R1 です。ToMBench-Hard は、単なる評価セットではなく、ショートカットが効きにくい社会的推論の難問を与える訓練・評価基盤として設計されています。論文では、人間の総合精度が 0.89 なのに対し、DeepSeek-R1 は 0.61、O3 は 0.59、GPT-5 は 0.56 にとどまることを示し、社会的推論の本当の難しさを露出させています。
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related