AI研究 2026-02-01 タグ: cs.MA, cs.AI, cs.CV, cs.LG

モダリティを越えたコミュニケーションの学習：マルチエージェントシステムにおける知覚的異質性

本研究は、送信者が「音声」を聞き、受信者が「画像」を見るという、互いに異なる知覚モダリティ（感覚器）を持つ異種マルチエージェント間において、共通の知覚基盤がない状態からどのようにコミュニケーションが創発するかを調査したものです。

論文図解

TL;DR（結論）

本研究は、送信者が「音声」を聞き、受信者が「画像」を見るという、互いに異なる知覚モダリティ（感覚器）を持つ異種マルチエージェント間において、共通の知覚基盤がない状態からどのようにコミュニケーションが創発するかを調査したものです。実験の結果、異種モダリティ間のシステムはタスクを遂行できるものの、単一モダリティのシステムと比較して効率性が低く、メッセージの解読における不確実性が高まる一方で、送信者のメッセージは自身の知覚構造（音声の周波数など）に根ざした情報を保持し続けることが判明しました。また、異なる知覚世界で学習したエージェント同士はそのままでは通信に失敗しますが、わずかな微調整（ファインチューニング）を行うだけで、互いのプロトコルを適応させて正常に意思疎通を図れるようになるという、創発的言語の柔軟性と適応能力の高さが示されました。

なぜこの問題か

言語の進化や創発に関する研究において、あらかじめ定義された言語的慣習がない状態で、個体間の相互作用からどのようにコミュニケーションシステムが構築されるのかを解明することは、人工知能や認知科学における重要な課題です。これまでの人工エージェントを用いた創発的コミュニケーションの研究の多くは、エージェントが環境に対して同じ知覚表現を共有している、つまり「共通の知覚空間」にプロトコルを接地させているという暗黙の仮定に基づいています。しかし、現実世界の環境では、対話者はそれぞれ異なる知覚世界に住んでいる可能性があり、それでもなおコミュニケーションを成立させています。例えば、異なるセンサーを持つロボット同士の協力や、異なる感覚器を持つ生物間の相互作用、あるいは人間と機械のインターフェースなどがこれに該当します。本論文では、エージェント間の「知覚の不一致（Perceptual Misalignment）」が、創発されるコミュニケーションプロトコルの構造や効率にどのような影響を与えるかを探求しています。…

核心：何を提案したのか

本研究では、エージェントが異なるモダリティを持ち、知覚的な接地を共有していない状況を模した「異種マルチステップ・バイナリ・コミュニケーション・ゲーム」を提案し、その動態を詳細に分析しました。このゲームは、先行研究で導入された画像とテキストを用いたマルチステップ参照ゲームを拡張したもので、音声と画像という、より情報の性質が異なるモダリティを組み合わせた設定を採用しています。この設定において、送信者（Sender）と受信者（Receiver）は、同じ対象物に関する異なるモダリティの情報（例：犬の鳴き声の音声と、犬の画像）を観察し、複数の候補の中から正しい対象を特定するために通信を行います。提案された枠組みの最大の特徴は、送信者と受信者が直接的に同じ情報を共有できない点にあります。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。