拡散型言語モデルの並列復号を依存関係つきで進める:自己注意から独立集合を選ぶ DAPD
拡散型言語モデルは複数トークンを同時に埋め戻せるのが強みですが、各位置の確率だけを見て並列更新すると、互いに強く依存した語を同時に確定して全体が不整合になりやすいという弱点があります。 DAPD は、自己注意からマスク位置間の依存グラフを作り、強く結びついた位置を避けながら独立集合だけを選んで同時にマスク解除 する、追加学習不要の並列復号法です。 LLaDA と Dream で精度とステップ数の両立を改善し、ParallelBench では LLaDA の逐次生成に近い精度を保ちながら平均66.2 step まで短縮し、3.87倍の高速化を達成しました。