論文検索 新着 人気 料金
運営: Cognitive Research Labs(CRL) crl.co.jp
毎日更新

Streaming-dLLM:サフィックス剪定と動的デコーディングによる拡散LLMの加速

要約

拡散大規模言語モデル(dLLM)の推論速度を劇的に向上させる、学習不要のフレームワーク「Streaming-dLLM」の提案です。冗長なトークンを削除する空間的な効率化と、不要な反復計算をスキップする時間的な効率化を組み合わせ、生成品質を維持しつつ最大68.2倍の高速化を達成しました。


全文は有料プランで閲覧できます。

Unlock

全文は有料プラン限定です

ログインして試す

Pro

深掘りチャットで“理解の履歴”を残す

プランを見る

Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。

Related

次に読む