AI研究 2026-02-04 タグ: cs.LG, cs.AI, cs.MM

有害性関連グラフによるマルチモーダルデータ内の潜在的な有害性の解明：グラフベースの指標と解釈可能な検出フレームワーク

マルチモーダルデータにおいて、画像やテキストが単独では無害に見えても、それらを組み合わせることで潜在的な有害性が生じる「隠れた毒性（Covert Toxicity）」を検出するため、意味的な連想を構造化する「毒性連想グラフ（TAG）」と、その隠蔽度を定量化する世界初の指標「マルチモーダル毒性隠蔽度（MTC）」を提案した。このグラフ構造に基づき、マルチモーダル大規模言語モデル（MLLM）を用いて毒性の推論経路を明示的に生成する検出フレームワーク「TA-CTD」を開発し、意思決定プロセスの透明性と解釈性を確保しながら、従来の moderation モデルでは見逃されがちな巧妙な有害コンテンツを特定することを可能にした。高い隠蔽度を持つ事例を収集した初のベンチマーク「Covert Toxic Dataset（CTD）」を構築して評価を行った結果、提案手法は既存の検出手法を精度と説明力の両面で上回り、特に複雑な文化的・文脈的な連想を必要とする高度に隠蔽された毒性の検出において顕著な有効性を示した。

論文図解

TL;DR（結論）

なぜこの問題か

オンライン上のマルチモーダルコンテンツが急速に増加する中で、有害な情報の検出は極めて重要な課題となっているが、従来の検出技術は主に「明白な毒性（Overt Toxicity）」に焦点を当ててきた。明白な毒性とは、画像やテキストのいずれか、あるいは両方に直接的な攻撃性や不適切な表現が含まれているケースを指すが、現実にはより巧妙な手法で有害なメッセージを伝える「隠れた毒性（Covert Toxicity）」が増加している。隠れた毒性の最大の特徴は、個別のモダリティ（画像のみ、あるいはテキストのみ）を単独で評価した場合には完全に無害に見える点にある。例えば、単なる「白い粉」の画像と「電話番号」というテキストが組み合わされた場合、それ自体に攻撃的な要素はないが、文化的・文脈的な連想を通じて違法薬物の販売を暗示する可能性がある。このような隠れた毒性は、モダリティ間の微妙な意味的関連性が活性化されたときに初めて有害な意味として浮上するため、表面的な特徴の融合に頼る既存の手法では検出が困難である。…

核心：何を提案したのか

本論文の核心的な提案は、マルチモーダルデータにおける意味的な連想を体系的にモデル化する「毒性連想グラフ（Toxicity Association Graphs: TAGs）」という概念の導入である。TAGは、画像やテキストに含まれる一見無害なエンティティから、潜在的な毒性の含意に至るまでの意味的な推論経路をグラフ構造として表現するものである。このグラフを用いることで、単なる特徴量の比較ではなく、概念間のつながりを辿ることで隠れた毒性を浮き彫りにすることができる。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。