AI研究 2026-01-29 タグ: cs.CL

安定化されたルーティングを備えた多言語音声認識のための動的マルチエキスパートプロジェクタ

大規模言語モデル（LLM）を活用した多言語音声認識において、単一のプロジェクターが抱える音響と意味のマッピングの限界を打破するため、複数の専門家（エキスパート）を動的に統合する「SMEAR-MoE」を提案しました。

論文図解

TL;DR（結論）

大規模言語モデル（LLM）を活用した多言語音声認識において、単一のプロジェクターが抱える音響と意味のマッピングの限界を打破するため、複数の専門家（エキスパート）を動的に統合する「SMEAR-MoE」を提案しました。従来のエキスパート混合（MoE）手法で課題となっていた、一部のエキスパートに学習が偏る「エキスパート崩壊」を、パラメータをソフトにマージして仮想的なエキスパートを構築する手法により、すべてのエキスパートに密な勾配を送ることで解決しています。インド系の4言語を用いた検証では、従来の単一プロジェクターと比較して単語誤り率（WER）を最大7.6%削減し、推論速度を維持したまま、言語族の特性に応じた専門化と知識共有を両立できることを実証しました。

なぜこの問題か

自動音声認識（ASR）システムは、現代のデジタル社会において仮想アシスタントや文字起こし、アクセシビリティ向上のための基盤技術として極めて重要な役割を担っています。近年、高い性能を持つ音声エンコーダと大規模言語モデル（LLM）を、軽量なプロジェクターで接続する手法が注目を集めています。このアプローチは、LLMが持つ膨大な言語知識や世界知識を、最小限の追加学習で音声認識タスクに転用できるため、特に高品質な音声データが不足している言語において非常に有効な手段となります。しかし、多言語環境においてはこのプロジェクターが大きなボトルネックとなります。単一の固定的なプロジェクターでは、インド・アーリア語族とドラヴィダ語族のように、言語学的・類型論的に大きく異なる言語間の多様な音響から意味へのマッピングを十分に捉えきることができません。これまでの研究では、言語ごとに専用のプロジェクターを用意する手法も検討されてきましたが、これは言語間での知識共有を妨げるだけでなく、対応する言語数が増えるにつれてモデルの規模が肥大化し、スケーラビリティに欠けるという問題がありました。…

核心：何を提案したのか

本論文では、多言語音声認識の安定性と精度を劇的に向上させるために、安定化された混合専門家プロジェクターである「SMEAR-MoE（Soft Merging of Experts with Adaptive Routing）」を提案しています。この手法の核心的なアイデアは、従来のような「どの一部のエキスパートを使うか」という離散的な選択を排除し、微分可能な「仮想的な単一エキスパート」を動的に構築するアプローチにあります。SMEAR-MoEは、ゲーティングネットワークから出力された重みに基づいて、用意されたすべてのエキスパートのパラメータ（重み行列とバイアス）をソフトにマージします。これにより、学習中のすべてのステップにおいて、すべてのエキスパートに対して密な勾配信号が送られるようになり、エキスパート崩壊を根本から防ぐことが可能になります。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。