Scaling Beyond Masked Diffusion Language Models:離散拡散言語モデルを「パープレキシティ中心」から拡張して捉え直す
自己回帰(AR)言語モデルは、系列の尤度を左から右へ分解して学習し、言語モデリングの指標として検証用パープレキシティが広く使われてきました。学習・評価の生態系が整っていることもあり、長く中心的な方法として扱われています。一方で拡散言語モデルは、系列全体を並列に持ちながら反復的に更新して生成するため、トークンを逐次に確定していく方式とは異なる速度・品質のトレードオフが期待されています。特に離散拡散の文脈では、言語モデリングのベンチマークでパープレキシティが強いことを背景に、Masked diffusionが優勢だと見なされやすい状況があると述べられています。 ただし本研究は、その「パープレキシティ中心」の見方が不十分になり得る点を問題にしています。第一に、パープレキシティは推論時のふるまいを直接表しません。例えばMDLMはサンプリング計算を増やすほど品質が改善しやすい一方で、Uniform-state diffusionは少ない手数で強みを示す場合がある、といった違いが挙げられています。第二に、離散拡散モデルの「真の」パープレキシティは一般に計算が難しく、実際には境界(bound)に依存した推定になりがちです。…
本研究の提案は大きく三つに整理できます。第一に、Uniform-state diffusionとinterpolating diffusionについて、スケーリング則の系統的な研究を初めて提示すると述べています。離散拡散の議論はMasked diffusionに寄りやすく、他の拡散ファミリーを同じ条件で大規模に調べることが手薄だった、という認識が前提にあります。そこでMasked diffusion(MDLM)、Uniform-state diffusion(Duo)、interpolating diffusion(Eso-LM)を代表として選び、計算量をそろえた条件で学習させ、検証損失や計算最適なモ…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related