拡散大規模言語モデル(dLLM)の推論速度を劇的に向上させる、学習不要のフレームワーク「Streaming-dLLM」の提案です。冗長なトークンを削除する空間的な効率化と、不要な反復計算をスキップする時間的な効率化を組み合わせ、生成品質を維持しつつ最大68.2倍の高速化を達成しました。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related