論文検索 新着 人気 料金
運営: Cognitive Research Labs(CRL) crl.co.jp
毎日更新

検索注入型推論サンドボックス:検索能力と推論能力を分離するためのベンチマーク

要約

大規模言語モデルが真に新しい科学的情報に基づいて推論できるかを評価するため、DeR2という新しいサンドボックス環境が提案されました。DeR2は、検索と推論の能力を分離して測定するために4つの異なる条件下でテストを行い、モデルが知識を記憶しているかではなく、与えられた文書に基づいて論理的に結論を導けるかを厳密に検証します。


全文は有料プランで閲覧できます。

Unlock

全文は有料プラン限定です

ログインして試す

Pro

深掘りチャットで“理解の履歴”を残す

プランを見る

Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。

Related

次に読む