近年のStable Diffusion 3やFLUXなどのフローベース生成モデルを用いた画像編集において、既存の「反転不要(Inversion-Free)」な手法は、ソース画像の軌跡構築に固定ガウスノイズを使用するため、実際の画像分布との間に「構造的・確率的不一致」が生じ、編集過程での軌跡のズレや背景の崩れといった構造劣化を招くという課題があった。 この問題を解決するために提案された「SNR-Edit」は、セグメンテーションモデル(SAM2)と幾何学的エンコーディング(RoPE)を用いて画像固有の構造的制約を初期ノイズに注入する「構造認識型ノイズ整流」機構を導入したトレーニング不要のフレームワークであり、確率的なノイズ成分を実際の画像の潜在的な位置に固定することで編集軌跡の漂流を抑制するものである。 PIE-Benchおよび新たに構築されたSNR-Benchを用いたSD3とFLUX上での評価において、SNR-Editは既存のFlowEditやDNAEditと比較してPSNRやSSIMなどのピクセルレベル指標およびVLMベースのスコアで優れた性能を示し、画像1枚あたり約1秒の追加コストで非編集領域の構造を忠実に保持しながらテキスト指示に忠実な編集を実現したことが実証された。
近年のStable Diffusion 3やFLUXなどのフローベース生成モデルを用いた画像編集において、既存の「反転不要(Inversion-Free)」な手法は、ソース画像の軌跡構築に固定ガウスノイズを使用するため、実際の画像分布との間に「構造的・確率的不一致」が生じ、編集過程での軌跡のズレや背景の崩れといった構造劣化を招くという課題があった。 この問題を解決するために提案された「SNR-Edit」は、セグメンテーションモデル(SAM2)と幾何学的エンコーディング(RoPE)を用いて画像固有の構造的制約を初期ノイズに注入する「構造認識型ノイズ整流」機構を導入したトレーニング不要のフレームワークであり、確率的なノイズ成分を実際の画像の潜在的な位置に固定することで編集軌跡の漂流を抑制するものである。 PIE-Benchおよび新たに構築されたSNR-Benchを用いたSD3とFLUX上での評価において、SNR-Editは既存のFlowEditやDNAEditと比較してPSNRやSSIMなどのピクセルレベル指標およびVLMベースのスコアで優れた性能を示し、画像1枚あたり約1秒の追加コストで非編集領域の構造を忠実に保持しながらテキスト指示に忠実な編集を実現したことが実証された。
フローベース生成モデルの台頭と編集におけるジレンマ 近年、Stable Diffusion 3 (SD3) や FLUX といったフローベースの生成モデルが急速な進化を遂げており、テキストの指示に基づいて画像を編集する技術も、より高い忠実度と柔軟性を目指して発展しています。画像編集における理想的なゴールは、テキストプロンプトの指示に従って特定の意味的な属性(例えば、オブジェクトの種類の変更やスタイルの変換など)を的確に変更しつつ、それ以外の元の構造的なレイアウトや非編集コンテンツ(背景や構図)を完全に保持することです。しかし、既存のアプローチにはそれぞれ一長一短があり、制御性(Controllability)、効率性(Efficiency)、そして忠実度(Fidelity)のバランスを取ることは極めて困難な課題でした。 既存手法が抱える構造的な限界 本論文では、既存の主要な編集アプローチが抱える具体的な限界を以下のように詳細に分析しています。 1. 反転ベース(Inversion-Based)の編集: 画像を一度初期ノイズにマッピングし直す「反転(Inversion)」を行い、そこから再生成するパラダイムです。…
SNR-Edit: 構造認識型ノイズ整流による軌跡補正 本研究が提案するのは、「SNR-Edit」と名付けられた、トレーニング不要の新しい画像編集フレームワークです。この手法の核心は、既存の反転不要手法が抱える「固定ガウスノイズへの依存」を打破し、画像固有の構造情報を初期ノイズに積極…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related