表現正則化を用いた畳み込みオーディオトランスフォーマーによる音声理解の向上
TL;DR本研究は、音声理解のための新たな枠組み「Convolutional Audio Transformer (CAT)」を提案します。階層的な特徴を捉えるマルチレゾリューションブロックと、外部の事前学習済みモデルを利用した表現正則化を導入しました。
Cog AI Archive
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
TL;DR本研究は、音声理解のための新たな枠組み「Convolutional Audio Transformer (CAT)」を提案します。階層的な特徴を捉えるマルチレゾリューションブロックと、外部の事前学習済みモデルを利用した表現正則化を導入しました。
TL;DR本研究は、音声理解のための統一フレームワーク「Convolutional Audio Transformer (CAT)」を提案します。マルチレゾリューションブロックにより多様な時間・周波数構造を捉え、外部の事前学習済みエンコーダを用いた表現正則化により学習効率を大幅に向上させました。
TL;DRQwen3-ASRは、52言語に対応した高性能な音声認識モデル群と、非自己回帰型の強制アライメントモデルで構成されています。1.7Bモデルはオープンソースで最高水準の性能を誇り、0.6Bモデルは極めて高い処理効率を実現しています。アライメントモデルも既存手法を凌駕する精度を持ち、Apache 2.
TL;DR最新のテキスト読み上げ(TTS)技術による合成音声のリアリズム向上に伴い、音声ディープフェイク検出が困難になっています。本研究は、Dia2、Maya1、MeloTTSという異なるアーキテクチャを持つ最新TTSモデルを比較評価しました。
TL;DR音と映像(V-A)の理解と生成において、従来手法では不十分だったマルチスケールな構造のモデル化を改善する「GMS-CAVP」が提案されました。この手法は、対照学習による詳細な位置合わせと、拡散モデルを用いた生成学習を組み合わせることで、音と映像のクロスモーダルな理解と生成の両方で従来手法を上回る性能を示しました。
TL;DRインド芸術音楽における「ラーガ」の自動同定は、訓練データに含まれない稀少な楽曲の存在により困難でした。本研究では、ラベル付き・ラベルなしの両方のデータを活用する統一的な学習枠組みを採用。これにより、既知のラーガの知識を保持(忘却を回避)しつつ、未知のラーガを適切にカテゴリ化することに成功しました。
TL;DRリアルタイム音声エージェントの課題である、深い推論能力と低遅延の両立を目指したフレームワーク「LTS-VoiceAgent」の提案。意味のある発話単位を検出して処理を開始する動的トリガーと、バックグラウンドでの思考とフォアグラウンドでの発話を並行させる仕組みにより、精度と効率を維持しつつ応答速度を大幅に向上させました。
TL;DRWhisperをベースとした視聴覚音声認識(AV-ASR)において、エンコーダとデコーダの両方で視覚的特徴を利用する「デュアルユース」手法が提案されました。この手法は、従来のミドル・フュージョンと比較して、特に騒音環境下での認識精度を大幅に向上させ、LRS3ベンチマークの騒音条件下で新たなSOTAを達成しました。
TL;DR映画の字幕などの視覚情報を活用して音声認識精度を向上させる「Donut-Whisper」を提案。線形およびQ-Formerベースの位置合わせの利点を結合し、強力な視聴覚特徴を生成します。また、新たに中英混合の映画クリップデータセットを構築。Whisper等のベースラインと比較し、英語で5.75%のWER削減、中国語で16.5%のCER削減を達成しました。
TL;DRVibeVoice-ASRは、会議やポッドキャストなどの長尺音声における文脈分断や話者識別の課題を解決する汎用音声理解フレームワークです。最大60分の音声を一括処理し、音声認識、話者分離、タイムスタンプ付与を単一タスクとして統合します。50以上の言語やコードスイッチングに対応し、プロンプトによる用語精度の向上も可能です。
Pricing