継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

Qwen3-ASR テクニカルレポート

Qwen3-ASRは、52の言語と方言に対応する1.7Bおよび0.6Bの音声認識モデルと、11言語に対応した世界初のLLMベース非自己回帰型強制アライメントモデルで構成される強力な製品群である。

6352 字
読む →

表現正則化を用いた畳み込みオーディオトランスフォーマーによる音声理解の向上

CAT(Convolutional Audio Transformer)は、音声信号の多様な時間・周波数構造を捉える「多解像度ブロック」と、外部モデルの知見を借りて学習を高速化する「表現正則化」を導入した新しい自己教師あり学習フレームワークである。

5894 字
読む →

オーディオ理解のための表現正則化された畳み込みオーディオトランスフォーマー

音声信号の理解における「単一の粒度によるモデル化の限界」と「ゼロからの学習に伴う膨大な計算コスト」という二つの主要な課題を解決するため、多解像度ブロックと表現正則化を導入した新しい自己教師あり学習フレームワーク「CAT」を提案した。

6541 字
読む →

EuleroDec:効率的かつ堅牢な音声符号化のための複素数値RVQ-VAE

EuleroDecは、音声の振幅と位相の結合を保持するために、分析から量子化、合成までの全工程を複素数値で処理する初のエンドツーエンド音声コーデックである。 敵対的学習(GAN)や拡散モデルによる後処理を一切使用せず、従来のモデルと比較して学習時間を約95%削減しながら、未知のデータに対しても高い堅牢性と再現性を実現している。 24kHzの音声を6kbpsおよび12kbpsで符号化し、特に位相の正確さを測る指標や波形の忠実度において、従来の主要なニューラルコーデックを上回る最先端(SOTA)の性能を達成した。

5945 字
読む →

ToS: 動画内の距離推定を伴うステレオ音響イベントの定位と検出のためのスペシャリストチーム・アンサンブルフレームワーク

音響イベントの検出、定位、距離推定を同時に行う3D SELDは、意味(何が)、空間(どこで)、時間(いつ)という3つの次元を統合的に推論する必要があり、単一のモデルではこれら全ての要素を最適化することが困難という課題がありました。

7300 字
読む →

AVMeme Exam:LLMの文脈的・文化的知識と思考のためのマルチモーダル・多言語・多文化ベンチマーク

本研究では、インターネット上の音声・映像ミーム1,032件を厳選し、AIモデルが人間の文化的・文脈的な意味をどの程度理解できるかを測定する新しいベンチマーク「AVMeme Exam」を開発しました。

6517 字
読む →

BanglaRobustNet:堅牢なベンガル語音声認識のためのハイブリッドなノイズ除去アテンションアーキテクチャ

ベンガル語は2億5千万人以上の話者を抱えながら、音声認識(ASR)においてはデータが不足している低リソース言語であり、環境ノイズや多様な方言、複雑な音韻構造が実用化の大きな壁となっていました。本研究が提案するBanglaRobustNetは、Wav2Vec-BERTを基盤に、拡散モデルを用いたノイズ除去モジュールと話者特性を捉えるクロスアテンション機構を統合することで、音韻の正確性を保ちつつノイズ耐性を劇的に向上させています。評価の結果、従来のWhisperやWav2Vec-BERTを大幅に上回る精度を達成し、クリーンな環境で12%、ノイズ環境で18%、方言において15%の単語誤り率(WER)削減を実現し、リアルタイムでの推論効率も確保されています。

5842 字
読む →

セグメント長は重要である:音声指紋照合の性能におけるセグメント長の研究

本研究は、音声指紋照合システムにおいて音声を切り出す際の「セグメント長」が照合精度に与える影響を、既存モデルを拡張したNAFP+を用いて詳細に調査したものです。 実験の結果、0.5秒という短いセグメント長が、特に3秒未満の短いクエリにおいて最も高い照合精度を達成し、クエリ長が4秒を超えると精度の向上が飽和する傾向が明らかになりました。 また、最適なセグメント長を提案する能力を大規模言語モデルで比較したところ、GPT-5-miniが実際の実験結果と最も合致する1秒前後の設定を一貫して推奨し、システム設計における高い信頼性を示しました。

5784 字
読む →

RIR-Mega-Speech:網羅的な音響メタデータと再現可能な評価を備えた残響音声コーパス

RIR-Mega-Speechは、LibriSpeechの音声と約5,000のシミュレーションされた部屋インパルス応答(RIR)を組み合わせた、約117.5時間の新しい残響音声コーパスである。最大の特徴は、全ファイルに対してRT60、直接音対残響音比(DRR)、明瞭度指数(C50)といった詳細な音響メタデータが付与されている点にあり、WindowsおよびLinux環境でデータセットの再構築や評価結果の再現が可能なスクリプトが提供されている。Whisper smallモデルを用いた検証では、残響によって単語誤り率(WER)が5.20%から7.70%へと相対的に48%悪化することが示され、RT60の増加やDRRの低下に伴って認識精度が単調に低下する物理的特性と一致する傾向が確認された。

6182 字
読む →

VIBEVOICE-ASR 技術報告書

VIBEVOICE-ASRは、会議やポッドキャストなどの最長60分に及ぶ長尺音声を、分割せずに一度のパスで処理可能な汎用音声理解フレームワークであり、従来の手法で課題となっていた文脈の断片化や複数話者の複雑性を解消することに成功しています。

6204 字
読む →