AI研究 2026-03-16 タグ: cs.CL, cs.AI

ESG-Bench：長大なESGレポートで幻覚を抑えるベンチマークと4段CoT学習

ESG レポートは長く複雑で、しかも規制や投資判断に直結するため、LLM がもっとも苦手な「長文から事実だけを抜く」課題がそのまま表面化します。 ESG-Bench は、実在の ESG レポートに基づく human-annotated QA と hallucination ラベルを備えたベンチマークで、LLM が答えるべき場面と「答えないべき」場面の両方を評価できるようにした点が特徴です。さらに 4-step CoT を使った fine-tuning は、通常の prompting や単純な SFT より hallucination を強く抑え、しかもその改善が HaluEval や BioASQ のような他ベンチにも波及することが示されました。

論文図解

TL;DR（結論）

ESG レポートは長く複雑で、しかも規制や投資判断に直結するため、LLM がもっとも苦手な「長文から事実だけを抜く」課題がそのまま表面化します。
ESG-Bench は、実在の ESG レポートに基づく human-annotated QA と hallucination ラベルを備えたベンチマークで、LLM が答えるべき場面と「答えないべき」場面の両方を評価できるようにした点が特徴です。
さらに 4-step CoT を使った fine-tuning は、通常の prompting や単純な SFT より hallucination を強く抑え、しかもその改善が HaluEval や BioASQ のような他ベンチにも波及することが示されました。

なぜこの問題か

ESG レポートは長く、テキストだけでなく表、図、定性的説明が入り混じるうえ、業界固有の文脈や規制知識も要求されます。しかも企業はしばしば自社に有利な表現を選ぶため、greenwashing 的な記述や曖昧な表現も混在します。つまり、ESG 文書理解は「長文読解」「証拠検索」「業界知識」「慎重な非回答」の四つを同時に求める難題です。

核心：何を提案したのか

提案は大きく二つです。第一に、ESG-Bench という hallucination-aware ESG QA ベンチマークを構築しています。ここでは実在の ESG レポートを対象に、質問、回答、根拠、そして hallucination の有無を人手で注釈しています。しかも単に正答率を見るのではなく、回答が存在するケースと、文書中に十分な根拠がなく「not provided」と答えるべきケースを分けて扱います。

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。