継続更新

生成モデリング高速化のためのバイアンカー補間ソルバー

Flow Matching(FM)モデルの生成速度を向上させるため、既存の巨大なバックボーンモデルを凍結したまま、その1〜2%程度の極めて軽量な「SideNet」を追加して双方向の時間を知覚させる「BA-solver」が提案されました。

生成モデリング高速化のためのバイアンカー補間ソルバー の図解
論文図解

TL;DR(結論)

Flow Matching(FM)モデルの生成速度を向上させるため、既存の巨大なバックボーンモデルを凍結したまま、その1〜2%程度の極めて軽量な「SideNet」を追加して双方向の時間を知覚させる「BA-solver」が提案されました。 この手法は、区間の開始点と終了点の両方でバックボーンによる高精度な速度推定(バイアンカー)を行い、その中間をSideNetで補間することで、わずか5〜10回のネットワーク評価(NFE)で高品質な画像を生成することを可能にします。 ImageNet-256を用いた検証では、10回の評価で従来のEulerソルバーの100回以上に匹敵するFID 1.72を達成し、学習コストも既存の蒸留手法の0.03%〜1.0%程度に抑えつつ、画像編集などの下流タスクにもそのまま適用できる汎用性を備えています。

なぜこの問題か

現在の画像生成AIの主流であるFlow Matching(FM)モデルや拡散モデルは、ノイズからデータへの変換を連続的な常微分方程式(ODE)を解くプロセスとして定式化していますが、このプロセスには大きな課題が存在します。 高精度な画像を生成するためには、このODEを数値的に解く際に時間を細かく区切り、何度も巨大なニューラルネットワークを動かして速度場を計算する必要があり、これが推論時の大きな遅延(レイテンシ)の原因となっています。 既存の解決策は大きく二つのグループに分かれますが、一つ目の「学習不要なソルバー」は、Euler法のような外挿型ソルバーとHeun法のような補間型ソルバーに分類されます。 外挿型ソルバーは1ステップあたりの計算負荷は低いものの、ステップ数を減らすと外挿誤差が急激に増大し、画像の品質が著しく低下するという問題があります。 一方で補間型ソルバーは精度が高いものの、1つの区間内で複数の速度を順番に計算する必要があるため、結局のところネットワークの評価回数(NFE)を効果的に減らすことができず、高速化の限界に直面していました。…

核心:何を提案したのか

本研究では、学習不要なソルバーの汎用性と、学習ベースの手法の高速性を両立させる「Bi-Anchor Interpolation Solver(BA-solver)」を提案しています。 この手法の最大の特徴は、元の巨大なバックボーンモデル(FMモデル)には一切手を加えず、そのわずか1%から2%程度のサイズしかない非常に軽量な「SideNet」を補助的に導入する点にあります。 BA-solverは、バックボーンモデルを「アンカー(錨)」として利用し、区間の開始点と終了点における正確な速度情報を取得します。 そして、その二つのアンカーの間にある中間的な速度場を、SideNetを用いて効率的に補間することで、少ないステップ数でも極めて高い積分精度を実現します。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む