継続更新

生成モデルを加速するBi-Anchor補間ソルバー

Flow Matching(FM)モデルの生成速度を劇的に向上させるため、巨大なバックボーンを凍結したまま、わずか1〜2%のサイズである軽量なSideNetを追加して高精度な軌道補間を行う「BA-solver」が提案されました。

生成モデルを加速するBi-Anchor補間ソルバー の図解
論文図解

TL;DR(結論)

Flow Matching(FM)モデルの生成速度を劇的に向上させるため、巨大なバックボーンを凍結したまま、わずか1〜2%のサイズである軽量なSideNetを追加して高精度な軌道補間を行う「BA-solver」が提案されました。 この手法は、従来のEulerソルバーが100回以上の評価(NFE)を必要とした品質をわずか10回の評価で達成し、5回という極少ステップでも高い忠実度を維持しながら、既存の学習済みモデルにプラグアンドプレイで統合可能です。 学習コストは既存の蒸留手法と比較して0.03%〜1.0%程度と極めて低く、計算資源を抑えつつ画像編集などの下流タスクにも適用できる汎用性と、推論時の低遅延・高品質な生成を両立する「スイートスポット」を実現しています。

なぜこの問題か

現在の画像生成の主流であるFlow Matching(FM)モデルは、ノイズ分布からデータ分布へと連続的に変化させる速度場を学習することで、極めて高品質な画像を生成できます。しかし、その生成プロセスは常微分方程式(ODE)を解く反復計算に依存しており、推論時の遅延が大きなボトルネックとなっています。この問題を解決するために、これまで大きく分けて2つの方向性が探求されてきましたが、それぞれに無視できない課題が存在しています。 一つ目の方向性は「学習不要なソルバー」を用いる方法です。Euler法のような外挿ソルバーは、各ステップで1回のモデル評価(NFE)で済むため計算は速いですが、ステップ幅を大きくすると軌道の予測誤差が急増し、品質を保つには100回以上の反復が必要になります。一方で、Heun法のような補間ソルバーは精度が高いものの、1ステップ内で複数の評価を逐次的に行う必要があり、結果として全体の計算回数を十分に削減できず、推論の高速化には限界がありました。 二つ目の方向性は「学習ベースの高速化」であり、1ステップや数ステップで生成を行う蒸留手法やConsistency Modelsなどが存在します。…

核心:何を提案したのか

本論文では、学習不要なソルバーの汎用性と、学習ベース手法の高速性を両立させる「Bi-Anchor Interpolation Solver(BA-solver)」を提案しています。この手法の核心は、巨大なバックボーンモデルを一切変更せずに凍結したまま、そのわずか1〜2%のサイズしかない軽量な「SideNet」を追加モジュールとして導入する点にあります。これにより、既存の強力なモデルの表現力を維持しつつ、推論プロセスのみを効率化することに成功しました。 BA-solverは、2つの主要な技術的コンポーネントによって構成されています。第一の柱は「双方向時間知覚(Bidirectional Temporal Perception)」です。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む