LLM推論において、限られたGPUメモリと厳しい遅延SLO(サービスレベル目標)の両立は課題でした。SuperInferは、NVIDIA GH200等のスーパーチップ向けに設計された推論システムです。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related