論文検索 新着 人気 料金
運営: Cognitive Research Labs(CRL) crl.co.jp
毎日更新
AI Data Base

生成AIの最新動向を、読みやすいアーカイブで。

AI研究の要点を整理。最新の論文記事をカテゴリやタグで探索できます。

運営: Cognitive Research Labs(CRL) / crl.co.jp

新着 論文 人気 料金 無料で試す
Popular

RedSage: サイバーセキュリティに特化した汎用LLM

TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。

Cog AI Archive

最新の記事

人気記事ピックアップ

RedSage: サイバーセキュリティに特化した汎用LLM

TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。

AI研究 2026-01-29 閲覧 40 クリック 16

表現正則化を用いた畳み込みオーディオトランスフォーマーによる音声理解の向上

TL;DR本研究は、音声理解のための新たな枠組み「Convolutional Audio Transformer (CAT)」を提案します。階層的な特徴を捉えるマルチレゾリューションブロックと、外部の事前学習済みモデルを利用した表現正則化を導入しました。

読了 0 分 1190 字
読む →

オーディオ理解のための表現正則化畳み込みオーディオトランスフォーマー

TL;DR本研究は、音声理解のための統一フレームワーク「Convolutional Audio Transformer (CAT)」を提案します。マルチレゾリューションブロックにより多様な時間・周波数構造を捉え、外部の事前学習済みエンコーダを用いた表現正則化により学習効率を大幅に向上させました。

読了 0 分 1090 字
読む →

Qwen3-ASR テクニカルレポート

TL;DRQwen3-ASRは、52言語に対応した高性能な音声認識モデル群と、非自己回帰型の強制アライメントモデルで構成されています。1.7Bモデルはオープンソースで最高水準の性能を誇り、0.6Bモデルは極めて高い処理効率を実現しています。アライメントモデルも既存手法を凌駕する精度を持ち、Apache 2.

読了 0 分 1276 字
読む →

高度なTTSモデル時代における音声ディープフェイク検出:統合的アプローチの必要性

TL;DR最新のテキスト読み上げ(TTS)技術による合成音声のリアリズム向上に伴い、音声ディープフェイク検出が困難になっています。本研究は、Dia2、Maya1、MeloTTSという異なるアーキテクチャを持つ最新TTSモデルを比較評価しました。

読了 0 分 1379 字
読む →

GMS-CAVP:マルチスケールの対照学習および生成的事前学習による視聴覚対応の改善

TL;DR音と映像(V-A)の理解と生成において、従来手法では不十分だったマルチスケールな構造のモデル化を改善する「GMS-CAVP」が提案されました。この手法は、対照学習による詳細な位置合わせと、拡散モデルを用いた生成学習を組み合わせることで、音と映像のクロスモーダルな理解と生成の両方で従来手法を上回る性能を示しました。

読了 0 分 1340 字
読む →

発見するための学習:忘却のないラーガ識別のための一般化フレームワーク

TL;DRインド芸術音楽における「ラーガ」の自動同定は、訓練データに含まれない稀少な楽曲の存在により困難でした。本研究では、ラベル付き・ラベルなしの両方のデータを活用する統一的な学習枠組みを採用。これにより、既知のラーガの知識を保持(忘却を回避)しつつ、未知のラーガを適切にカテゴリ化することに成功しました。

読了 0 分 1403 字
読む →

LTS-VoiceAgent:意味的トリガーと増分推論による効率的なストリーミング音声対話のための「聞く・考える・話す」フレームワーク

TL;DRリアルタイム音声エージェントの課題である、深い推論能力と低遅延の両立を目指したフレームワーク「LTS-VoiceAgent」の提案。意味のある発話単位を検出して処理を開始する動的トリガーと、バックグラウンドでの思考とフォアグラウンドでの発話を並行させる仕組みにより、精度と効率を維持しつつ応答速度を大幅に向上させました。

読了 0 分 1361 字
読む →

Whisperのエンコーダとデコーダの両方で視覚特徴量を用いる耐雑音性視聴覚音声認識

TL;DRWhisperをベースとした視聴覚音声認識(AV-ASR)において、エンコーダとデコーダの両方で視覚的特徴を利用する「デュアルユース」手法が提案されました。この手法は、従来のミドル・フュージョンと比較して、特に騒音環境下での認識精度を大幅に向上させ、LRS3ベンチマークの騒音条件下で新たなSOTAを達成しました。

読了 0 分 1518 字
読む →

OCR強化型マルチモーダルASRは聞きながら読むことができる

TL;DR映画の字幕などの視覚情報を活用して音声認識精度を向上させる「Donut-Whisper」を提案。線形およびQ-Formerベースの位置合わせの利点を結合し、強力な視聴覚特徴を生成します。また、新たに中英混合の映画クリップデータセットを構築。Whisper等のベースラインと比較し、英語で5.75%のWER削減、中国語で16.5%のCER削減を達成しました。

読了 0 分 1456 字
読む →

VIBEVOICE-ASR テクニカルレポート

TL;DRVibeVoice-ASRは、会議やポッドキャストなどの長尺音声における文脈分断や話者識別の課題を解決する汎用音声理解フレームワークです。最大60分の音声を一括処理し、音声認識、話者分離、タイムスタンプ付与を単一タスクとして統合します。50以上の言語やコードスイッチングに対応し、プロンプトによる用語精度の向上も可能です。

読了 0 分 1193 字
読む →
保存済みの記事がまだありません。
読み込み中…

Pricing

論文×チャット×知識DBを続けるなら

Free

¥0
  • 要約閲覧
  • 全文は月 2 本まで
  • チャットは月 3 回まで
無料で始める

Plus

¥1,780 / 月
  • 全文閲覧無制限
  • スレッド保存
  • Flashモデル
  • チャット上限 300 回/月
Plusで始める

Pro

¥2,980 / 月
  • 全文閲覧無制限
  • スレッド保存
  • 長文回答(Proモデル)
  • チャット上限 800 回/月
Proで始める