大規模言語モデルが真に新しい科学的情報に基づいて推論できるかを評価するため、DeR2という新しいサンドボックス環境が提案されました。DeR2は、検索と推論の能力を分離して測定するために4つの異なる条件下でテストを行い、モデルが知識を記憶しているかではなく、与えられた文書に基づいて論理的に結論を導けるかを厳密に検証します。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related