SONIC-O1は、マルチモーダル大規模言語モデル(MLLM)の音声・動画理解能力を評価するための新しいベンチマークです。13の実世界領域から収集された4,958件の人間による検証済みアノテーションを含み、要約や時間的特定などのタスクを評価します。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related