AI研究 2026-01-29 タグ: cs.CL

OVD: 教師モデルの言語スコアを活用した効率的なオンポリシー蒸留手法

要約

大規模な教師モデルから効率的な生徒モデルへ推論能力を転移させる新しい手法「OVD」が提案された。従来の手法と異なり、トークンレベルの確率一致ではなく、教師からの離散的な言語スコア（0〜9）を用いた軌跡マッチングを採用している。これによりメモリ消費を大幅に削減しつつ、Web質問応答や数学タスクで顕著な性能向上を達成した。

全文は有料プランで閲覧できます。

Unlock

全文は有料プラン限定です

ログインして試す

Pro

深掘りチャットで“理解の履歴”を残す

プランを見る

Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。

OVD: 教師モデルの言語スコアを活用した効率的なオンポリシー蒸留手法

要約

全文は有料プラン限定です

深掘りチャットで“理解の履歴”を残す

次に読む