論文検索 新着 人気
毎日更新

UEval: 画像とテキストの両方を生成する統合モデルのためのベンチマーク

要約

UEvalは、画像とテキストの両方を生成できる「統合モデル」を評価するための新しいベンチマークである。8つの実世界タスクから厳選された1,000の質問で構成され、画像とテキストの両方を必要とする出力を評価する。評価には、専門家が検証した10,417の基準に基づくルーブリック方式を採用し、スケーラブルかつ詳細な自動採点を可能にしている。


全文は有料プランで閲覧できます。

Unlock

全文は有料プラン限定です

ログインして試す

Pro

深掘りチャットで“理解の履歴”を残す

プランを見る

Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。

Related

次に読む