継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

SNR-Edit: インバージョン不要なフローベース編集のための構造認識型ノイズ補正

近年のStable Diffusion 3やFLUXなどのフローベース生成モデルを用いた画像編集において、既存の「反転不要(Inversion-Free)」な手法は、ソース画像の軌跡構築に固定ガウスノイズを使用するため、実際の画像分布との間に「構造的・確率的不一致」が生じ、編集過程での軌跡のズレや背景の崩れといった構造劣化を招くという課題があった。 この問題を解決するために提案された「SNR-Edit」は、セグメンテーションモデル(SAM2)と幾何学的エンコーディング(RoPE)を用いて画像固有の構造的制約を初期ノイズに注入する「構造認識型ノイズ整流」機構を導入したトレーニング不要のフレームワークであり、確率的なノイズ成分を実際の画像の潜在的な位置に固定することで編集軌跡の漂流を抑制するものである。 PIE-Benchおよび新たに構築されたSNR-Benchを用いたSD3とFLUX上での評価において、SNR-Editは既存のFlowEditやDNAEditと比較してPSNRやSSIMなどのピクセルレベル指標およびVLMベースのスコアで優れた性能を示し、画像1枚あたり約1秒の追加コストで非編集領域の構造を忠実に保持しながらテキスト指示に忠実な編集を実現したことが実証された。

7083 字
読む →

MATA: マルチエージェント視覚的推論のための学習可能な階層的オートマトンシステム

視覚言語モデルは高い知覚能力を持つ一方で、複雑な推論における「幻覚」やプロセスの不透明さが課題となっており、本研究ではこれを解決するために推論過程を有限状態オートマトンとしてモデル化しました。 提案手法である「MATA」は、学習可能なハイパーエージェントが複数の専門エージェントを動的に切り替える階層構造を採用し、共有メモリを介してエージェント間の高度な協調と競争を実現することで、推論の透明性と精度を両立させています。 9万件の遷移軌跡から構築されたデータセットを用いて微調整された大規模言語モデルを制御塔とすることで、複数の視覚推論ベンチマークにおいて従来手法を凌駕する最高水準の性能を達成し、複雑なタスクにおける新たな基準を提示しました。

6180 字
読む →

UniPCB:オープンエンドなPCB品質検査のための統一視覚言語ベンチマーク

UniPCBは、プリント基板(PCB)の品質検査を目的とした世界初の統一的な視覚言語ベンチマークであり、6,000枚以上の画像と23,000件を超える高品質な多対話形式の質問回答ペアを提供することで、複雑な工業検査におけるマルチモーダルモデルの性能を厳密に評価する。

5957 字
読む →

Innovator-VL:科学的発見のためのマルチモーダル大規模言語モデル

Innovator-VLは、科学的ドメインにおける高度な理解と推論を実現するために開発された、透明性の高いマルチモーダル大規模言語モデル(MLLM)であり、科学的タスクでの卓越した性能と一般的な視覚タスクでの汎用性を高い次元で両立させています。

5893 字
読む →