Apple Siliconの統合メモリを活かした新しい推論フレームワーク「vllm-mlx」が提案されました。MLXをベースに構築され、テキストモデルでは既存ツール比で最大87%のスループット向上を実現。さらにマルチモーダルモデル向けに画像キャッシュ機能を導入し、繰り返し処理を劇的に高速化しています。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related