AI研究 2026-01-29 タグ: cs.CL, cs.SD

共感を持って話す前に二度熟考する：共感を意識したエンドツーエンド音声対話のための自己反省的交互推論

共感的な音声対話では、返答そのものだけでなく、相手の感情をどう読み取り、なぜその返答に至ったかという“途中の推論”まで扱わないと品質が伸びにくい、という問題設定が置かれています。 / そこで著者らは、共感の良し悪しを自然言語の説明として出力する評価器 EmpathyEval と、反省文と音声応答を交互に生成する ReEmpathy を組み合わせ、話す前に二度振り返るような推論過程を end-to-end の音声対話モデルへ埋め込みました。 / 実験では、記述型の共感評価、スコア型評価との相関、人手評価のいずれでも改善が見られ、単純な Chain-of-Thought を話す前に入れるだけでは足りず、反省と発話を交互に回す設計が効いていることが示されます。

論文図解

TL;DR（結論）

共感的な音声対話では、返答そのものだけでなく、相手の感情をどう読み取り、なぜその返答に至ったかという“途中の推論”まで扱わないと品質が伸びにくい、という問題設定が置かれています。
そこで著者らは、共感の良し悪しを自然言語の説明として出力する評価器 EmpathyEval と、反省文と音声応答を交互に生成する ReEmpathy を組み合わせ、話す前に二度振り返るような推論過程を end-to-end の音声対話モデルへ埋め込みました。
実験では、記述型の共感評価、スコア型評価との相関、人手評価のいずれでも改善が見られ、単純な Chain-of-Thought を話す前に入れるだけでは足りず、反省と発話を交互に回す設計が効いていることが示されます。

なぜこの問題か

音声対話で「共感できる返答」を作る難しさは、テキスト対話より一段深いところにあります。文字だけなら、相手の発話内容を読んで意味を合わせればある程度形になりますが、音声になると、感情の強さ、ためらい、落ち込み、怒り、安心の気配といった信号が声に乗ります。すると返答の良し悪しは、文法的に正しいか、意味が通るかだけでは決まりません。相手の感情状態をどこまで正確に拾い、その状態に対してどんな距離感で応答したかが重要になります。

核心：何を提案したのか

提案の核は二つあります。第一に、共感品質を自然言語の説明として評価する EmpathyEval、第二に、その評価の形式を学習信号として使いながら、反省と発話を交互に進める ReEmpathy です。単一のスコアを返す評価器ではなく、「どこが共感的で、どこが足りないのか」を言語で記述する評価器を先に作り、その記述を発話モデルに取り込む順番になっています。

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。