AI研究 2026-01-29 タグ: cs.CV, cs.AI

知識豊富な大規模マルチモーダルモデルのためのピクセル接地型検索

PixSearchは、画像の特定領域に基づいた検索と推論を統合した、エンドツーエンドのセグメンテーション機能を持つ大規模マルチモーダルモデルであり、従来のシステムが抱えていた検索のタイミングや方法を自律的に判断できないという課題を解決する。

論文図解

TL;DR（結論）

PixSearchは、画像の特定領域に基づいた検索と推論を統合した、エンドツーエンドのセグメンテーション機能を持つ大規模マルチモーダルモデルであり、従来のシステムが抱えていた検索のタイミングや方法を自律的に判断できないという課題を解決する。モデルは生成過程で自律的に検索トークンを出力し、テキストや画像全体だけでなく、ピクセルレベルのマスクを直接クエリとして使用する領域指定検索を行うことで、外部の検知器やセグメンテーションツールに依存しない高精度な知識補完を可能にする。 2段階の教師あり微調整プロセスを経て、セグメンテーション精度を保ちながら検索の最適化を行い、CRAG-MMベンチマークにおいて画像全体を用いた検索手法と比較して19.7%の相対的な精度向上を達成し、事実に基づいた回答の生成能力を大幅に強化した。

なぜこの問題か

視覚的質問応答（VQA）において、入力画像に含まれる情報だけでは不十分であり、外部の事実知識を組み合わせる必要がある場面は非常に多い。特に、スマートグラスのようなウェアラブルデバイスから得られる一人称視点の画像では、広角レンズの影響で対象となるエンティティが非常に小さく写ることが多く、さらにそれらが一般的ではない「ロングテール」な対象である場合、大規模言語モデル（LLM）が内部に持つ知識だけでは正確に回答することが困難である。このような状況では、画像内の特定の物体を正確に認識し、それに関連する詳細な知識を外部から取得する能力が不可欠となる。これまでのマルチモーダル検索拡張生成（MM-RAG）システムは、事実に基づいた接地能力を向上させてきたが、主に2つの大きな制限が存在していた。第一に、多くのシステムは画像全体を検索クエリとして使用するか、画像を単に言い換えたテキストのみをクエリとして使用している点である。画像全体を使用すると、背景のノイズや無関係な物体が検索結果を歪ませる原因となり、一方でテキストのみのクエリでは、詳細なエンティティの特定に必要な視覚的な具体性が欠如してしまう。…

核心：何を提案したのか

本研究では、検索拡張推論のための初のエンドツーエンドなセグメンテーション大規模マルチモーダルモデル（LMM）である「PixSearch」を提案している。PixSearchは、領域レベルの知覚と検索拡張推論を一つの統一されたフレームワーク内で統合している。このモデルの最大の特徴は、外部の検知器やセグメンテーションAPIに依存することなく、モデル内部でピクセルレベルのマスクを生成し、それを直接視覚的な検索クエリとして利用できる点にある。これにより、従来のモジュール型システムで発生していた情報の欠落や誤変換を防ぎ、より洗練された視覚的接地を実現している。 PixSearchは生成プロセスにおいて、自律的に検索の必要性を判断し、検索を実行するための特殊なトークンを出力する。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。