継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

RIR-Mega-Speech:網羅的な音響メタデータと再現可能な評価を備えた残響音声コーパス

RIR-Mega-Speechは、LibriSpeechの音声と約5,000のシミュレーションされた部屋インパルス応答(RIR)を組み合わせた、約117.5時間の新しい残響音声コーパスである。最大の特徴は、全ファイルに対してRT60、直接音対残響音比(DRR)、明瞭度指数(C50)といった詳細な音響メタデータが付与されている点にあり、WindowsおよびLinux環境でデータセットの再構築や評価結果の再現が可能なスクリプトが提供されている。Whisper smallモデルを用いた検証では、残響によって単語誤り率(WER)が5.20%から7.70%へと相対的に48%悪化することが示され、RT60の増加やDRRの低下に伴って認識精度が単調に低下する物理的特性と一致する傾向が確認された。

6182 字
読む →

VIBEVOICE-ASR 技術報告書

VIBEVOICE-ASRは、会議やポッドキャストなどの最長60分に及ぶ長尺音声を、分割せずに一度のパスで処理可能な汎用音声理解フレームワークであり、従来の手法で課題となっていた文脈の断片化や複数話者の複雑性を解消することに成功しています。

6204 字
読む →

共感を持って話す前に二度熟考する:共感を意識したエンドツーエンド音声対話のための自己反省的交互推論

共感的な音声対話では、返答そのものだけでなく、相手の感情をどう読み取り、なぜその返答に至ったかという“途中の推論”まで扱わないと品質が伸びにくい、という問題設定が置かれています。 / そこで著者らは、共感の良し悪しを自然言語の説明として出力する評価器 EmpathyEval と、反省文と音声応答を交互に生成する ReEmpathy を組み合わせ、話す前に二度振り返るような推論過程を end-to-end の音声対話モデルへ埋め込みました。 / 実験では、記述型の共感評価、スコア型評価との相関、人手評価のいずれでも改善が見られ、単純な Chain-of-Thought を話す前に入れるだけでは足りず、反省と発話を交互に回す設計が効いていることが示されます。

7117 字
読む →

不均衡補正を伴う音源定位のための解析的増分学習

本研究は、音源定位(SSL)の増分学習において、特定の方向のデータが極端に多い「タスク内不均衡」と、タスク間でクラス分布が重なり歪む「タスク間不均衡」の二重の課題を解決する新フレームワーク「SSL-GCIL」を提案しました。

7020 字
読む →

OCR強化型マルチモーダルASRは聞きながら読むことができる

本研究では、音声認識モデルのWhisperとOCRモデルのDonutを統合した、エンドツーエンドのマルチモーダル音声認識モデル「Donut-Whisper」を提案し、映画の字幕などの視覚的なテキスト情報を活用することで、音声のみのモデルが苦手とするノイズ環境や未知語の認識精度を大幅に向上させた。

5740 字
読む →

Whisperのエンコーダとデコーダの両方で視覚特徴量を用いる耐雑音性視聴覚音声認識

本研究は、Whisper ASRの騒音耐性を劇的に向上させるため、視覚的特徴量をエンコーダとデコーダの両方に統合する「デュアルユース」手法を提案し、従来の融合手法が抱えていた学習の不安定さや相互作用の欠如という課題を解決した。

5975 字
読む →

3DGesPolicy:アクション制御に基づく音素を考慮した包括的な発話随伴ジェスチャ生成

本研究は、ロボット工学の拡散ポリシー(Diffusion Policy)を応用し、全身の動きと顔の表情を統合的に生成する新しいフレームワーク「3DGesPolicy」を提案した。従来のフレーム単位の回帰や部位分解手法が抱えていた、空間的な不安定さや意味的な不整合という課題を解決するため、ジェスチャー生成を「連続的な軌道制御問題」として再定義し、フレーム間の変化を統一された「アクション」としてモデル化している。さらに、音素レベルの言語情報と音響特徴を高度に融合させるGAP(Gesture-Audio-Phoneme)モジュールを導入することで、発話内容と身体動作、唇の動きが精密に同期した、自然で表現力豊かなデジタルヒューマンの挙動を実現し、BEAT2データセットにおいて既存の最先端手法を上回る性能を実証した。

6459 字
読む →

LTS-VoiceAgent:意味的トリガーと増分推論による効率的なストリーミング音声対話のための「聞く・考える・話す」フレームワーク

従来の音声エージェントが抱えていた「推論能力の不足」と「高い応答遅延」の二律背反を解消するため、意味の区切りを検知して思考を開始する「動的意味トリガー」と、思考と発話を並列化する「二重役割ストリームオーケストレーター」を導入したLTS-VoiceAgentフレームワークを提案しました。

6613 字
読む →

低リソース環境におけるネパール語のニューラル多話者ボイスクローニング

本研究は、データ資源が極めて乏しいネパール語において、わずかな音声サンプルから特定の個人の声を再現する「フューショット音声クローニング」システムを開発しました。 システムは、話者の特徴を抽出するエンコーダ、デバナガリ文字からメルスペクトログラムを生成するTacotron2、そして高品質な音声を合成するWaveRNNの3つの主要なニューラルネットワークを統合して構成されています。 833名の話者による235時間の広範なデータセットを用いた検証の結果、未知の話者に対しても高い類似性と自然な音声品質を実現し、低リソース言語におけるパーソナライズされた音声合成の基盤を確立しました。

5898 字
読む →

語族の重要性:言語の境界を越えたLLMベースのASRの評価

大規模言語モデル(LLM)を活用した自動音声認識(ASR)において、個別の言語ごとに接続モジュール(コネクタ)を学習させる従来の手法に対し、言語的な類似性に基づいた「語族」単位でコネクタを共有する新しい戦略を提案した。

6031 字
読む →