AI研究 2026-02-04 タグ: cs.CV, cs.AI

生成モデルと進化アルゴリズムを用いたタスク特化型データ拡張の自動生成手法「EvoAug」

EvoAugは、拡散モデルやNeRFといった最新の生成AI技術と進化アルゴリズムを融合させることで、特定のタスクに最適化されたデータ拡張戦略を自動で構築する革新的な学習パイプラインである。従来の回転や反転といった単純な操作に留まらず、画像から抽出した構造情報を条件として新たな多様性を生み出すことで、データが極端に不足している数ショット学習環境においてもモデルの汎化性能を大幅に向上させる。この手法は、拡張操作を階層的なバイナリツリー構造で表現し、進化の過程で最適な組み合わせを探索することで、ドメイン知識に依存することなく、各データセットの特性に合致した強力な拡張手法を自律的に発見することを可能にしている。

論文図解

TL;DR（結論）

なぜこの問題か

コンピュータービジョンの分野において、モデルの過学習を抑制し汎化性能を高めるためのデータ拡張は、長年不可欠な要素として位置づけられてきた。従来、クロッピングや回転、色の反転といった手法が広く用いられてきたが、これらは画像の本質的な構造を大きく変えるものではない。一方で、近年の条件付き拡散モデルや数ショットNeRFといった生成モデルの進展は、極めてリアルかつ多様なデータを合成できる新しいパラダイムを提示している。しかし、これらの生成モデルをデータ拡張に活用しようとすると、生成されたデータと実データの間に乖離が生じる「合成と現実のギャップ（syn-to-real gap）」という深刻な問題に直面する。生成モデルによって作られた画像がタスクに適切に適合していない場合、モデルの性能を向上させるどころか、逆に低下させてしまうリスクがある。例えば、拡散モデルは依然として人間の指のような細かいディテールを正確に描写することに苦労する場合があり、不完全な合成画像で学習を行うと、モデルがその誤りを強化してしまう可能性がある。…

核心：何を提案したのか

本論文が提案する「EvoAug」は、生成モデルと効率的な進化アルゴリズムを組み合わせることで、タスクごとに最適なデータ拡張戦略を自動的に学習するパイプラインである。この手法の核心は、複数の拡張操作を階層的に組み合わせる「拡張ツリー（Augmentation Tree）」という概念を導入した点にある。このツリーはバイナリツリー構造を持っており、各ノードが特定の拡張操作を表し、エッジがその操作を選択する確率を保持している。これにより、画像に対して複数の操作を確率的に、かつ構造的に適用することが可能になる。EvoAugは、従来のクロッピングや回転といった古典的な手法と、拡散モデルやNeRFを用いた最新の生成的手法を同じ枠組みの中で扱うことができる。具体的には、ControlNetを用いた条件付き拡散モデルを活用し、元の画像から抽出したエッジ情報や深度情報、セグメンテーションマップなどを条件として新しい画像を生成する。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。