大規模言語モデル(LLM)の推論などで課題となる、同期的な処理におけるリソースの偏りと待機時間の問題を解決する新たな「普遍的ロードバランシング原理」が提案されました。この手法は、最悪ケースでも性能を保証する整数最適化に基づいており、スループットと遅延を大幅に改善し、エネルギー消費も削減することが実験で示されています。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related