AI研究 2026-01-29 タグ: cs.AI

TEA-Bench：ツール強化型感情支援対話エージェントの体系的ベンチマーク

従来の感情支援対話（ESC）は共感的な発話に偏り、現実の状況に基づいた具体的な助言が不足することで、AIが事実を捏造し信頼を損なうハルシネーションの問題を抱えていました。本研究は、外部ツールを活用して事実に基づいた「道具的支援」を行う能力を評価する初の対話型ベンチマーク「TEA-Bench」を提案し、31種のツールを備えた環境で9種の大規模言語モデルの性能を体系的に検証しました。検証の結果、ツールの導入は感情支援の質を向上させハルシネーションを劇的に抑制しますが、その効果はモデルの基礎能力に強く依存しており、強力なモデルほどツールを適切に選択して活用できる一方で、能力の低いモデルはツールの情報を統合できず混乱する傾向が判明しました。

論文図解

TL;DR（結論）

なぜこの問題か

現代社会において、仕事や日常生活のプレッシャーから生じる感情的なストレスを抱える人々が増加しており、心理的な救済や指針を提供する感情支援対話（ESC）の需要が急速に高まっています。社会支援理論によれば、効果的な支援には「共感的支援」と「道具的支援」の二つの側面が必要ですが、これまでの研究やベンチマークの多くはテキストのみの共感表現に集中していました。共感的支援は温かい言葉で寄り添うものですが、道具的支援は現実世界の状況に基づいた具体的で実行可能な指針を提供する必要があり、これには外部情報の正確な把握が欠かせません。既存のシステムは外部の文脈情報にアクセスする手段が限られているため、例えば深夜に「今からカフェに行こう」と提案するなど、現実の時刻や場所を無視した不適切な助言を行うことがあります。このような事実に基づかない「ハルシネーション（もっともらしい嘘）」は、たとえ言葉が優しくてもユーザーの信頼を著しく損ない、支援の効果を台無しにしてしまうという課題がありました。情報の正確性が欠如したアドバイスは、ユーザーに「このAIは自分の状況を理解していない」という疎外感を与え、逆効果になるリスクがあると考えられます。…

核心：何を提案したのか

本論文では、ツール強化型エージェントが感情支援対話において、いかに事実に基づいた共感的なサポートを提供できるかを評価する初の対話型ベンチマーク「TEA-Bench」を提案しました。このベンチマークは、単なるテキストのやり取りだけでなく、エージェントが自律的に外部ツールを呼び出して情報を取得し、それを対話に組み込む能力を測定する点に特徴があります。具体的には、現実的な感情的シナリオ、Model Context Protocol（MCP）スタイルのツール環境、そして対話のプロセスを詳細に分析するための評価指標で構成されています。また、ツールを用いた高品質な対話データセットである「TEA-Dialog」を公開し、モデルの微調整が性能に与える影響についても調査を行っています。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。