大規模な教師モデルから効率的な生徒モデルへ推論能力を転移させる新しい手法「OVD」が提案された。従来の手法と異なり、トークンレベルの確率一致ではなく、教師からの離散的な言語スコア(0〜9)を用いた軌跡マッチングを採用している。これによりメモリ消費を大幅に削減しつつ、Web質問応答や数学タスクで顕著な性能向上を達成した。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related