画像生成AIの急速な進化は、従来の人間による評価スコア(MOS)を「知覚的ドリフト」によって急速に陳腐化させ、再評価に膨大なコストを強いるという課題を生んでいる。本研究が提案するELIQは、人間の注釈を一切介さず、最新の生成モデルを用いた高品質な正例と、意図的に劣化させた負例のペアを自動構築することで、視覚的品質とプロンプト整合性の両面からAI生成画像を評価する革新的なラベルフリー・フレームワークである。 命令チューニングを施したマルチモーダル言語モデル(MLLM)を「品質に敏感な批評家」として適応させ、さらに軽量なQuality Query Transformer(QQT)とゲート付き融合メカニズムを組み合わせることで、単一画像からの高精度な品質予測を実現している。 複数のベンチマークにおける検証の結果、ELIQは既存のラベルフリー手法を大幅に凌駕し、教師あり学習モデルに迫る性能を示した。さらに、AI生成画像(AIGC)だけでなくユーザー生成コンテンツ(UGC)にもそのまま適用可能な高い汎用性を持ち、生成モデルの進化に合わせて評価基準を動的に更新できるスケーラブルな評価基盤としての有効性が証明されている。
画像生成AIの急速な進化は、従来の人間による評価スコア(MOS)を「知覚的ドリフト」によって急速に陳腐化させ、再評価に膨大なコストを強いるという課題を生んでいる。本研究が提案するELIQは、人間の注釈を一切介さず、最新の生成モデルを用いた高品質な正例と、意図的に劣化させた負例のペアを自動構築することで、視覚的品質とプロンプト整合性の両面からAI生成画像を評価する革新的なラベルフリー・フレームワークである。 命令チューニングを施したマルチモーダル言語モデル(MLLM)を「品質に敏感な批評家」として適応させ、さらに軽量なQuality Query Transformer(QQT)とゲート付き融合メカニズムを組み合わせることで、単一画像からの高精度な品質予測を実現している。 複数のベンチマークにおける検証の結果、ELIQは既存のラベルフリー手法を大幅に凌駕し、教師あり学習モデルに迫る性能を示した。さらに、AI生成画像(AIGC)だけでなくユーザー生成コンテンツ(UGC)にもそのまま適用可能な高い汎用性を持ち、生成モデルの進化に合わせて評価基準を動的に更新できるスケーラブルな評価基盤としての有効性が証明されている。
画像生成AI(Text-to-Imageモデル)の分野は、拡散モデルやトランスフォーマー技術の導入により、かつてない速度で進化を続けている。この急速な進化は、画像品質の限界を絶えず押し上げる一方で、「知覚的ドリフト(Perceptual Drift)」と呼ばれる深刻な問題を引き起こしている。知覚的ドリフトとは、生成モデルの能力向上に伴い、人間が感じる「高品質」の基準が変化してしまう現象である。例えば、数年前のモデルで発生していた不自然なノイズや構造の乱れは、現在の最新モデルではほぼ解消されているが、代わりに新たな失敗モードが出現している。このため、過去に収集された人間による平均意見スコア(MOS)は、現在の最新モデルの品質を評価する上では不適切、あるいは一貫性のないものとなってしまう。 従来の画像品質評価(IQA)手法の多くは、人間が数万枚の画像に対して付与した膨大なMOSデータセットを用いた教師あり学習に依存している。しかし、生成モデルが進化するたびに、新しい知覚スケールに合わせて数百万件規模の評価をやり直すことは、コストと時間の面で持続不可能である。…
本研究では、進化し続けるAI生成画像に対応するためのラベルフリーな品質評価フレームワーク「ELIQ」を提案している。ELIQの核心的なアイデアは、絶対的なMOS値という「固定された尺度」に依存するのではなく、自動的に構築された「相対的な比較」によって学習を行う点にある。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related