論文検索 新着 人気
毎日更新

正解ラベルなしでLLMを評価する「審査員考慮型」ランキングフレームワーク

要約

正解ラベルのないタスクにおけるLLM評価手法として、審査員ごとの信頼性の違いを考慮した新しいランキングフレームワークを提案する研究である。Bradley-Terry-Luceモデルを拡張し、ペアワイズ比較からモデルの品質と審査員の信頼性を同時に推定することで、人間の好みとの一致度を高め、より正確なランキングと不確実性の定量化を実現した。


全文は有料プランで閲覧できます。

Unlock

全文は有料プラン限定です

ログインして試す

Pro

深掘りチャットで“理解の履歴”を残す

プランを見る

Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。

Related

次に読む