継続更新

ESG-Bench:長大なESGレポートで幻覚を抑えるベンチマークと4段CoT学習

ESG レポートは長く複雑で、しかも規制や投資判断に直結するため、LLM がもっとも苦手な「長文から事実だけを抜く」課題がそのまま表面化します。 ESG-Bench は、実在の ESG レポートに基づく human-annotated QA と hallucination ラベルを備えたベンチマークで、LLM が答えるべき場面と「答えないべき」場面の両方を評価できるようにした点が特徴です。 さらに 4-step CoT を使った fine-tuning は、通常の prompting や単純な SFT より hallucination を強く抑え、しかもその改善が HaluEval や BioASQ のような他ベンチにも波及することが示されました。

ESG-Bench:長大なESGレポートで幻覚を抑えるベンチマークと4段CoT学習 の図解
論文図解

TL;DR(結論)

  • ESG レポートは長く複雑で、しかも規制や投資判断に直結するため、LLM がもっとも苦手な「長文から事実だけを抜く」課題がそのまま表面化します。
  • ESG-Bench は、実在の ESG レポートに基づく human-annotated QA と hallucination ラベルを備えたベンチマークで、LLM が答えるべき場面と「答えないべき」場面の両方を評価できるようにした点が特徴です。
  • さらに 4-step CoT を使った fine-tuning は、通常の prompting や単純な SFT より hallucination を強く抑え、しかもその改善が HaluEval や BioASQ のような他ベンチにも波及することが示されました。

なぜこの問題か

ESG レポートは長く、テキストだけでなく表、図、定性的説明が入り混じるうえ、業界固有の文脈や規制知識も要求されます。しかも企業はしばしば自社に有利な表現を選ぶため、greenwashing 的な記述や曖昧な表現も混在します。つまり、ESG 文書理解は「長文読解」「証拠検索」「業界知識」「慎重な非回答」の四つを同時に求める難題です。

核心:何を提案したのか

提案は大きく二つです。第一に、ESG-Bench という hallucination-aware ESG QA ベンチマークを構築しています。ここでは実在の ESG レポートを対象に、質問、回答、根拠、そして hallucination の有無を人手で注釈しています。しかも単に正答率を見るのではなく、回答が存在するケースと、文書中に十分な根拠がなく「not provided」と答えるべきケースを分けて扱います。

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む