拡散大規模言語モデル(dLLM)の推論において、全レイテンシの最大70%を占めるサンプリング処理の効率化に取り組んだ研究。従来のGEMM中心のNPUでは苦手な不規則なメモリアクセス等に対し、軽量なベクトル命令やメモリ再利用戦略を導入。RTX A6000 GPUと比較して最大2.53倍の高速化を達成した。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related