マルチモーダルLLMは、なぜ「学習」だけがこんなに重くなりがちなのでしょうか? 鍵はモデルの巨大さだけでなく、画像が生む“視覚トークンの多さ”にあります。 とはいえ、ただ削れば速くなる一方で、推論の場面で別の問題が噴き出す——そこが話を難しくします。
マルチモーダルLLM(MLLMs)の訓練が重い理由は、モデルサイズだけではありません。論文は、視覚側が生む「視覚トークン数」そのものが、学習効率を深刻に悪化させると指摘します。とりわけ、モデルのサイズや入力解像度が伸びるほど、この部分がボトルネックとして前面に出てくる、という問題意識です。
論文が提案するのは、DualSpeedという「fast-slow」フレームワークです。視覚トークンを削るVisual Token Pruning(VTP)を、推論だけでなく学習にも持ち込み、学習を速くすることが狙いです。既存の効率化が「サイズ」や「学習パラメータ」に寄る中で、DualSpeedは「視覚トークン数を減らす」方向に舵を切っています。
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related