Qwen3-ASR テクニカルレポート
Qwen3-ASRは、52の言語と方言に対応する1.7Bおよび0.6Bの音声認識モデルと、11言語に対応した世界初のLLMベース非自己回帰型強制アライメントモデルで構成される強力な製品群である。
最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。
Cog AI Archive
Qwen3-ASRは、52の言語と方言に対応する1.7Bおよび0.6Bの音声認識モデルと、11言語に対応した世界初のLLMベース非自己回帰型強制アライメントモデルで構成される強力な製品群である。
CAT(Convolutional Audio Transformer)は、音声信号の多様な時間・周波数構造を捉える「多解像度ブロック」と、外部モデルの知見を借りて学習を高速化する「表現正則化」を導入した新しい自己教師あり学習フレームワークである。
音声信号の理解における「単一の粒度によるモデル化の限界」と「ゼロからの学習に伴う膨大な計算コスト」という二つの主要な課題を解決するため、多解像度ブロックと表現正則化を導入した新しい自己教師あり学習フレームワーク「CAT」を提案した。
EuleroDecは、音声の振幅と位相の結合を保持するために、分析から量子化、合成までの全工程を複素数値で処理する初のエンドツーエンド音声コーデックである。 敵対的学習(GAN)や拡散モデルによる後処理を一切使用せず、従来のモデルと比較して学習時間を約95%削減しながら、未知のデータに対しても高い堅牢性と再現性を実現している。 24kHzの音声を6kbpsおよび12kbpsで符号化し、特に位相の正確さを測る指標や波形の忠実度において、従来の主要なニューラルコーデックを上回る最先端(SOTA)の性能を達成した。
音響イベントの検出、定位、距離推定を同時に行う3D SELDは、意味(何が)、空間(どこで)、時間(いつ)という3つの次元を統合的に推論する必要があり、単一のモデルではこれら全ての要素を最適化することが困難という課題がありました。
本研究では、インターネット上の音声・映像ミーム1,032件を厳選し、AIモデルが人間の文化的・文脈的な意味をどの程度理解できるかを測定する新しいベンチマーク「AVMeme Exam」を開発しました。
ベンガル語は2億5千万人以上の話者を抱えながら、音声認識(ASR)においてはデータが不足している低リソース言語であり、環境ノイズや多様な方言、複雑な音韻構造が実用化の大きな壁となっていました。本研究が提案するBanglaRobustNetは、Wav2Vec-BERTを基盤に、拡散モデルを用いたノイズ除去モジュールと話者特性を捉えるクロスアテンション機構を統合することで、音韻の正確性を保ちつつノイズ耐性を劇的に向上させています。評価の結果、従来のWhisperやWav2Vec-BERTを大幅に上回る精度を達成し、クリーンな環境で12%、ノイズ環境で18%、方言において15%の単語誤り率(WER)削減を実現し、リアルタイムでの推論効率も確保されています。
本研究は、音声指紋照合システムにおいて音声を切り出す際の「セグメント長」が照合精度に与える影響を、既存モデルを拡張したNAFP+を用いて詳細に調査したものです。 実験の結果、0.5秒という短いセグメント長が、特に3秒未満の短いクエリにおいて最も高い照合精度を達成し、クエリ長が4秒を超えると精度の向上が飽和する傾向が明らかになりました。 また、最適なセグメント長を提案する能力を大規模言語モデルで比較したところ、GPT-5-miniが実際の実験結果と最も合致する1秒前後の設定を一貫して推奨し、システム設計における高い信頼性を示しました。
RIR-Mega-Speechは、LibriSpeechの音声と約5,000のシミュレーションされた部屋インパルス応答(RIR)を組み合わせた、約117.5時間の新しい残響音声コーパスである。最大の特徴は、全ファイルに対してRT60、直接音対残響音比(DRR)、明瞭度指数(C50)といった詳細な音響メタデータが付与されている点にあり、WindowsおよびLinux環境でデータセットの再構築や評価結果の再現が可能なスクリプトが提供されている。Whisper smallモデルを用いた検証では、残響によって単語誤り率(WER)が5.20%から7.70%へと相対的に48%悪化することが示され、RT60の増加やDRRの低下に伴って認識精度が単調に低下する物理的特性と一致する傾向が確認された。
VIBEVOICE-ASRは、会議やポッドキャストなどの最長60分に及ぶ長尺音声を、分割せずに一度のパスで処理可能な汎用音声理解フレームワークであり、従来の手法で課題となっていた文脈の断片化や複数話者の複雑性を解消することに成功しています。