表現正則化を用いた畳み込みオーディオトランスフォーマーによる音声理解の向上
TL;DR本研究は、音声理解のための新たな枠組み「Convolutional Audio Transformer (CAT)」を提案します。階層的な特徴を捉えるマルチレゾリューションブロックと、外部の事前学習済みモデルを利用した表現正則化を導入しました。
AI研究の要点を整理。最新の論文記事をカテゴリやタグで探索できます。
運営: Cognitive Research Labs(CRL) / crl.co.jp
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
Cog AI Archive
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
TL;DR本研究は、音声理解のための新たな枠組み「Convolutional Audio Transformer (CAT)」を提案します。階層的な特徴を捉えるマルチレゾリューションブロックと、外部の事前学習済みモデルを利用した表現正則化を導入しました。
TL;DR本研究は、音声理解のための統一フレームワーク「Convolutional Audio Transformer (CAT)」を提案します。マルチレゾリューションブロックにより多様な時間・周波数構造を捉え、外部の事前学習済みエンコーダを用いた表現正則化により学習効率を大幅に向上させました。
TL;DR本研究は、高度なニューラル音声編集による改ざんを検出すべく、大規模データセット「AiEdit」と新モデル「PELM」を提案しています。PELMはオーディオLLMを基盤とし、単語レベルの確率分布や音響的一貫性の損失関数を導入することで、検出と特定を統合しました。既存手法を大幅に上回る高い精度を達成しています。
TL;DR本研究は、ニューラル音声編集技術による精巧な改ざんを検出するため、大規模データセット「AiEdit」と新モデル「PELM」を提案しています。PELMは音声QAタスクとして検出と特定を統合し、単語レベルの確率的知見と音響的一貫性の損失関数を導入しました。既存手法を大幅に上回る高い検出精度を達成しています。
TL;DR合成音声の品質評価において、主観評価の代替となるFréchet Speech Distance(FSD)とSpeech Maximum Mean Discrepancy(SMMD)の信頼性を包括的に検証した研究です。
TL;DRQwen3-ASRは、52言語に対応した高性能な音声認識モデル群と、非自己回帰型の強制アライメントモデルで構成されています。1.7Bモデルはオープンソースで最高水準の性能を誇り、0.6Bモデルは極めて高い処理効率を実現しています。アライメントモデルも既存手法を凌駕する精度を持ち、Apache 2.
TL;DR最新のテキスト読み上げ(TTS)技術による合成音声のリアリズム向上に伴い、音声ディープフェイク検出が困難になっています。本研究は、Dia2、Maya1、MeloTTSという異なるアーキテクチャを持つ最新TTSモデルを比較評価しました。
TL;DR話者照合において、ユークリッド空間では話者特徴の階層情報の表現が不十分であるという課題に対し、双曲空間を用いたH-SoftmaxとHAM-Softmaxを提案。これらは階層情報を効果的に表現し、HAM-Softmaxはさらにマージン制約でクラス間分離性を強化。実験ではEERを大幅に削減し、性能向上を実証した。
TL;DR音と映像(V-A)の理解と生成において、従来手法では不十分だったマルチスケールな構造のモデル化を改善する「GMS-CAVP」が提案されました。この手法は、対照学習による詳細な位置合わせと、拡散モデルを用いた生成学習を組み合わせることで、音と映像のクロスモーダルな理解と生成の両方で従来手法を上回る性能を示しました。
TL;DR音声入出力対話システムの会話品質向上に向けた、AIフィードバックを用いた初のマルチ報酬強化学習(RLAIF)フレームワークです。意味、音声品質、感情の一貫性を組み合わせた報酬と、増分処理を行う二重通信モデルに適したDPO(直接選好最適化)手法を提案します。実験により、複数報酬による学習が会話の質を総合的に向上させることを示しました。
Pricing