正解ラベルのないタスクにおけるLLM評価手法として、審査員ごとの信頼性の違いを考慮した新しいランキングフレームワークを提案する研究である。Bradley-Terry-Luceモデルを拡張し、ペアワイズ比較からモデルの品質と審査員の信頼性を同時に推定することで、人間の好みとの一致度を高め、より正確なランキングと不確実性の定量化を実現した。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related