フローマッチングにおける分類器なしガイダンス(CFG)を最適化の観点から再解釈し、生成プロセスをターゲット画像集合への距離を最小化するホモトピー最適化として定義することで、サンプリングの精度を向上させる新手法「CFG-MP」を提案した。
フローマッチングにおける分類器なしガイダンス(CFG)を最適化の観点から再解釈し、生成プロセスをターゲット画像集合への距離を最小化するホモトピー最適化として定義することで、サンプリングの精度を向上させる新手法「CFG-MP」を提案した。 従来のCFGが抱えていたガイダンススケールへの過度な敏感さと画像品質の劣化という課題に対し、条件付き予測と無条件予測の乖離である「予測ギャップ」を多様体射影によって排除する仕組みを導入し、過飽和やアーティファクトを抑制しつつプロンプトへの忠実な追従を実現している。 大規模モデルであるDiT-XL-2-256やFlux、Stable Diffusion 3.5を用いた広範な実験において、追加の学習を必要とせずに従来のCFG変種を上回る性能を示し、アンダーソン加速の統合により計算効率と数値的安定性も大幅に強化されている。
拡散モデルやフローマッチング(Flow Matching)を用いた生成AIの技術は、高品質な画像や動画を生成する分野で主導的な役割を果たしている。特にフローマッチングは、ランダムなノイズをデータサンプルへと輸送するベクトル場を近似するようにニューラルネットワークを訓練する手法であり、数値的な安定性や計算負荷の低さ、モデリングの柔軟性において優れた特性を持っている。これらのモデルにおいて、テキストプロンプトなどの条件に沿った生成を制御するために最も広く利用されているのが、分類器なしガイダンス(Classifier-Free Guidance, CFG)である。CFGは、無条件のモデル予測と条件付きのモデル予測の間を線形補外することで動作し、その度合いはガイダンススケールと呼ばれるスカラー値によって制御される。 しかし、このCFGには経験的な成功の裏で、実用上の大きな課題が存在している。…
本研究の核心的な提案は、CFGのサンプリングプロセスを数学的な最適化の枠組みで捉え直し、予測ギャップを排除するための「多様体射影(Manifold Projection)」を導入したことにある。著者らはまず、フローマッチングにおける理想的な速度場が、平滑化された距離関数の勾配として表現できることを理論的に証明した。この視点により、サンプリングプロセスはターゲットとなる画像集合への距離を最小化していく「ホモトピー最適化」の過程であると再定義される。この理論的枠組みを用いることで、従来のCFGによる線形補外が、実はこの理想的な勾配場の近似に相当することを明らかにした。 さらに、この近似における誤差を分析した結果、誤差が「モデル自体の性能に起因する不可避な項」と「予測ギャップに比例する項」の二つに分解できることを導き出した。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related