CAR-benchは、車載音声アシスタントのような実世界の不確実な状況下で、LLMエージェントの一貫性と能力認識を評価する新しいベンチマークである。ナビゲーションや車両制御など58のツールを備え、曖昧な指示の明確化や、不可能な要求への対応能力(幻覚の回避)をテストする。実験の結果、最先端のモデルでも一貫した成功率は低く、信頼性に課題があることが示された。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related