論文検索 新着 人気 料金
運営: Cognitive Research Labs(CRL) crl.co.jp
毎日更新
AI Data Base

生成AIの最新動向を、読みやすいアーカイブで。

AI研究の要点を整理。最新の論文記事をカテゴリやタグで探索できます。

運営: Cognitive Research Labs(CRL) / crl.co.jp

新着 論文 人気 料金 無料で試す
Popular

RedSage: サイバーセキュリティに特化した汎用LLM

TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。

Cog AI Archive

最新の記事

人気記事ピックアップ

RedSage: サイバーセキュリティに特化した汎用LLM

TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。

AI研究 2026-01-29 閲覧 36 クリック 16

表現正則化を用いた畳み込みオーディオトランスフォーマーによる音声理解の向上

TL;DR本研究は、音声理解のための新たな枠組み「Convolutional Audio Transformer (CAT)」を提案します。階層的な特徴を捉えるマルチレゾリューションブロックと、外部の事前学習済みモデルを利用した表現正則化を導入しました。

読了 0 分 1190 字
読む →

オーディオ理解のための表現正則化畳み込みオーディオトランスフォーマー

TL;DR本研究は、音声理解のための統一フレームワーク「Convolutional Audio Transformer (CAT)」を提案します。マルチレゾリューションブロックにより多様な時間・周波数構造を捉え、外部の事前学習済みエンコーダを用いた表現正則化により学習効率を大幅に向上させました。

読了 0 分 1090 字
読む →

音声編集の検出と改ざん箇所の特定を統合する事前知識強化型オーディオLLM

TL;DR本研究は、高度なニューラル音声編集による改ざんを検出すべく、大規模データセット「AiEdit」と新モデル「PELM」を提案しています。PELMはオーディオLLMを基盤とし、単語レベルの確率分布や音響的一貫性の損失関数を導入することで、検出と特定を統合しました。既存手法を大幅に上回る高い精度を達成しています。

読了 0 分 1224 字
読む →

音声編集の検出と改ざん箇所の特定を統合する事前知識強化型オーディオLLM

TL;DR本研究は、ニューラル音声編集技術による精巧な改ざんを検出するため、大規模データセット「AiEdit」と新モデル「PELM」を提案しています。PELMは音声QAタスクとして検出と特定を統合し、単語レベルの確率的知見と音響的一貫性の損失関数を導入しました。既存手法を大幅に上回る高い検出精度を達成しています。

読了 0 分 1167 字
読む →

合成音声品質評価のためのフレシェ音声距離の理解

TL;DR合成音声の品質評価において、主観評価の代替となるFréchet Speech Distance(FSD)とSpeech Maximum Mean Discrepancy(SMMD)の信頼性を包括的に検証した研究です。

読了 0 分 1267 字
読む →

Qwen3-ASR テクニカルレポート

TL;DRQwen3-ASRは、52言語に対応した高性能な音声認識モデル群と、非自己回帰型の強制アライメントモデルで構成されています。1.7Bモデルはオープンソースで最高水準の性能を誇り、0.6Bモデルは極めて高い処理効率を実現しています。アライメントモデルも既存手法を凌駕する精度を持ち、Apache 2.

読了 0 分 1276 字
読む →

高度なTTSモデル時代における音声ディープフェイク検出:統合的アプローチの必要性

TL;DR最新のテキスト読み上げ(TTS)技術による合成音声のリアリズム向上に伴い、音声ディープフェイク検出が困難になっています。本研究は、Dia2、Maya1、MeloTTSという異なるアーキテクチャを持つ最新TTSモデルを比較評価しました。

読了 0 分 1379 字
読む →

双曲空間における階層情報を活用した話者照合のためのHAM-Softmax

TL;DR話者照合において、ユークリッド空間では話者特徴の階層情報の表現が不十分であるという課題に対し、双曲空間を用いたH-SoftmaxとHAM-Softmaxを提案。これらは階層情報を効果的に表現し、HAM-Softmaxはさらにマージン制約でクラス間分離性を強化。実験ではEERを大幅に削減し、性能向上を実証した。

読了 0 分 1414 字
読む →

GMS-CAVP:マルチスケールの対照学習および生成的事前学習による視聴覚対応の改善

TL;DR音と映像(V-A)の理解と生成において、従来手法では不十分だったマルチスケールな構造のモデル化を改善する「GMS-CAVP」が提案されました。この手法は、対照学習による詳細な位置合わせと、拡散モデルを用いた生成学習を組み合わせることで、音と映像のクロスモーダルな理解と生成の両方で従来手法を上回る性能を示しました。

読了 0 分 1340 字
読む →

AIフィードバックによる強化学習を用いた音声対話システムにおける会話品質の最適化

TL;DR音声入出力対話システムの会話品質向上に向けた、AIフィードバックを用いた初のマルチ報酬強化学習(RLAIF)フレームワークです。意味、音声品質、感情の一貫性を組み合わせた報酬と、増分処理を行う二重通信モデルに適したDPO(直接選好最適化)手法を提案します。実験により、複数報酬による学習が会話の質を総合的に向上させることを示しました。

読了 0 分 1484 字
読む →
保存済みの記事がまだありません。
読み込み中…

Pricing

論文×チャット×知識DBを続けるなら

Free

¥0
  • 要約閲覧
  • 全文は月 2 本まで
  • チャットは月 3 回まで
無料で始める

Plus

¥1,780 / 月
  • 全文閲覧無制限
  • スレッド保存
  • Flashモデル
  • チャット上限 300 回/月
Plusで始める

Pro

¥2,980 / 月
  • 全文閲覧無制限
  • スレッド保存
  • 長文回答(Proモデル)
  • チャット上限 800 回/月
Proで始める