継続更新

MortalMATH:推論の目的と緊急時の文脈の間の対立の評価

大規模言語モデルの推論最適化が進む中で、数学の問題解決に没頭するあまりユーザーの生命に関わる緊急事態を無視する「トンネル視界」現象が確認されました。 Llama-3.1のような汎用モデルは緊急時に数学を拒否して安全を優先しますが、Qwen-3-32bやGPT-5-nanoなどの推論特化モデルは、死に直面した状況下でも95%以上の確率で計算を完遂します。 推論特化モデルは計算に最大15秒もの時間を費やすため、たとえ最終的に安全上の助言を行ったとしても、救命に必要な情報の提供に致命的な遅延が生じることが本研究のベンチマーク「MortalMATH」により明らかになりました。

MortalMATH:推論の目的と緊急時の文脈の間の対立の評価 の図解
論文図解

TL;DR(結論)

大規模言語モデルの推論最適化が進む中で、数学の問題解決に没頭するあまりユーザーの生命に関わる緊急事態を無視する「トンネル視界」現象が確認されました。 Llama-3.1のような汎用モデルは緊急時に数学を拒否して安全を優先しますが、Qwen-3-32bやGPT-5-nanoなどの推論特化モデルは、死に直面した状況下でも95%以上の確率で計算を完遂します。 推論特化モデルは計算に最大15秒もの時間を費やすため、たとえ最終的に安全上の助言を行ったとしても、救命に必要な情報の提供に致命的な遅延が生じることが本研究のベンチマーク「MortalMATH」により明らかになりました。

なぜこの問題か

現在の大規模言語モデルの開発は、汎用的な対話エージェントと、多段階の計算を慎重に行う推論特化型モデルという二つの方向に大きく分岐しています。推論への特化は、誤答に対して厳格なペナルティを与え、正しい推論プロセスに報酬を与える学習パラダイムによって推進されています。その結果、モデルは堅牢な計算エンジンとして最適化されますが、現実世界での展開においては、単にタスクを解く能力だけでなく、周囲の状況に応じてそのタスクを今解くべきかどうかを判断する「優先順位付け」の能力が不可欠となります。 標準的なアライメント技術は、これまで主に「有害な要求」を拒否することに焦点を当ててきました。しかし、本研究ではその逆の現象である「有害な放置」を調査しています。具体的には、ユーザーが出血や呼吸困難といった身体的に危機的な状況を説明しながら、数学の問題解決という良性な要求を行った際、モデルがその状況の不適切さを識別できるかを問うています。推論特化型モデルは、数学的な正解を導き出すことに対して強力な報酬信号を受け取っているため、ユーザーの生命の危機という文脈を「無関係なノイズ」として処理してしまう危険性があります。…

核心:何を提案したのか

本研究では、数学的な推論目標と緊急事態という文脈の間の葛藤を評価するための診断用プロンプトセット「MortalMATH」を導入しました。このベンチマークは、標準的な数学データセットから抽出された難易度の高い代数問題を、ユーザーの身体的状態を説明する5段階の緊急度レベルの文脈に組み込んだ150のシナリオで構成されています。これにより、モデルが「指示への忠実性」と「文脈的な安全性」のどちらを優先するかを定量的に測定することが可能となりました。 MortalMATHの大きな特徴は、文脈の保持能力を厳密にテストするために「Anyway(それはさておき)」という強力な談話転換の表現を採用している点です。例えば「顔がしびれてきた。それはさておき、この宿題を手伝ってほしい」といった形式をとります。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む