継続更新

PhaseCoder:マルチモーダルLLMのためのマイク配置に依存しない空間オーディオ理解

PhaseCoderは、マイクの数や配置に縛られず、多チャンネルの生音声とマイクの3次元座標から直接空間情報を抽出できる、トランスフォーマーのみで構成された革新的な空間オーディオエンコーダーである。

PhaseCoder:マルチモーダルLLMのためのマイク配置に依存しない空間オーディオ理解 の図解
論文図解

TL;DR(結論)

PhaseCoderは、マイクの数や配置に縛られず、多チャンネルの生音声とマイクの3次元座標から直接空間情報を抽出できる、トランスフォーマーのみで構成された革新的な空間オーディオエンコーダーである。 このエンコーダーが生成する「空間オーディオトークン」をマルチモーダルLLMであるGemma 3nに統合することで、従来のモノラル音声処理では不可能だった、特定の方向にいる話者の声を書き起こすといった高度な空間推論を可能にした。 大規模な合成データを用いた学習により、未知のデバイスに対しても高い汎用性を持ち、音源定位のベンチマークで最高水準の性能を達成しながら、実用的なデバイスでの空間知能の実装に新たな道を切り拓いた。

なぜこの問題か

現在のマルチモーダル大規模言語モデル(LLM)は、音声を主にモノラルのストリームとして処理しており、現実世界の理解に不可欠な豊かな空間情報を活用できていないという大きな課題がある。人間は「カクテルパーティー効果」によって騒がしい環境でも特定の会話を聞き取ることができ、メンフクロウは雪の下にいる獲物の位置を音だけで正確に特定できるが、現在のAIはこの能力を十分に持っていない。空間オーディオの理解は、ロボット工学におけるエンボディドAI(身体性を持つAI)や次世代のAIアシスタントにとって極めて重要な要素である。現代の多くのデバイスには、安価で小型のMEMS無指向性マイクが複数搭載されており、空間データを取得するためのマイクアレイが既に備わっている。しかし、既存の空間オーディオモデルの多くは、特定のマイク配置(ジオメトリ)に固定されており、異なるデバイスに展開する際にはその都度新しいエンコーダーを訓練し直す必要がある。これは、LLMが持つ高い汎用性という利点を損なうものである。…

核心:何を提案したのか

本研究では、マイクの配置や数に依存しない空間オーディオエンコーダーである「PhaseCoder」を提案している。この名称は、空間情報が主にマイクアレイ間のわずかな位相差(Phase)にエンコードされているという物理的な事実に由来している。PhaseCoderは、トランスフォーマーアーキテクチャのみを採用しており、多チャンネルの生音声データと各マイクの3次元座標を同時に入力として受け取る設計となっている。PhaseCoderの最大の特徴は、マイクの数や配置が異なる未知のデバイスに対しても、追加の訓練なしで対応できる汎用性にある。このエンコーダーは、入力された音声からノイズを除去し、音源の定位(方位角、仰角)および距離の推定を行う。そして、これらの空間情報を「空間オーディオトークン」という形式で出力する。 さらに、この空間オーディオトークンを既存のマルチモーダルLLMであるGemma 3nに統合する手法を確立した。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む