タグ: eess.AS | Cog AI Archive

Cog AI Archive

最新の記事

公開記事: 14件タグ: eess.AS

RedSage: サイバーセキュリティに特化した汎用LLM

TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。

AI研究 2026-01-29 閲覧 20 クリック 11

最新人気保存済み長文のみ

AI研究 2026-01-29

表現正則化を用いた畳み込みオーディオトランスフォーマーによる音声理解の向上

TL;DR本研究は、音声理解のための新たな枠組み「Convolutional Audio Transformer (CAT)」を提案します。階層的な特徴を捉えるマルチレゾリューションブロックと、外部の事前学習済みモデルを利用した表現正則化を導入しました。

読了 0 分 1190 字

読む →

AI研究 2026-01-29

オーディオ理解のための表現正則化畳み込みオーディオトランスフォーマー

TL;DR本研究は、音声理解のための統一フレームワーク「Convolutional Audio Transformer (CAT)」を提案します。マルチレゾリューションブロックにより多様な時間・周波数構造を捉え、外部の事前学習済みエンコーダを用いた表現正則化により学習効率を大幅に向上させました。

読了 0 分 1090 字

読む →

AI研究 2026-01-29

Qwen3-ASR テクニカルレポート

TL;DRQwen3-ASRは、52言語に対応した高性能な音声認識モデル群と、非自己回帰型の強制アライメントモデルで構成されています。1.7Bモデルはオープンソースで最高水準の性能を誇り、0.6Bモデルは極めて高い処理効率を実現しています。アライメントモデルも既存手法を凌駕する精度を持ち、Apache 2.

読了 0 分 1276 字

読む →

AI研究 2026-01-28

高度なTTSモデル時代における音声ディープフェイク検出：統合的アプローチの必要性

TL;DR最新のテキスト読み上げ（TTS）技術による合成音声のリアリズム向上に伴い、音声ディープフェイク検出が困難になっています。本研究は、Dia2、Maya1、MeloTTSという異なるアーキテクチャを持つ最新TTSモデルを比較評価しました。

読了 0 分 1379 字

読む →

AI研究 2026-01-27

GMS-CAVP：マルチスケールの対照学習および生成的事前学習による視聴覚対応の改善

TL;DR音と映像（V-A）の理解と生成において、従来手法では不十分だったマルチスケールな構造のモデル化を改善する「GMS-CAVP」が提案されました。この手法は、対照学習による詳細な位置合わせと、拡散モデルを用いた生成学習を組み合わせることで、音と映像のクロスモーダルな理解と生成の両方で従来手法を上回る性能を示しました。

読了 0 分 1340 字

読む →

AI研究 2026-01-26

発見するための学習：忘却のないラーガ識別のための一般化フレームワーク

TL;DRインド芸術音楽における「ラーガ」の自動同定は、訓練データに含まれない稀少な楽曲の存在により困難でした。本研究では、ラベル付き・ラベルなしの両方のデータを活用する統一的な学習枠組みを採用。これにより、既知のラーガの知識を保持（忘却を回避）しつつ、未知のラーガを適切にカテゴリ化することに成功しました。

読了 0 分 1403 字

読む →

AI研究 2026-01-26

LTS-VoiceAgent：意味的トリガーと増分推論による効率的なストリーミング音声対話のための「聞く・考える・話す」フレームワーク

TL;DRリアルタイム音声エージェントの課題である、深い推論能力と低遅延の両立を目指したフレームワーク「LTS-VoiceAgent」の提案。意味のある発話単位を検出して処理を開始する動的トリガーと、バックグラウンドでの思考とフォアグラウンドでの発話を並行させる仕組みにより、精度と効率を維持しつつ応答速度を大幅に向上させました。

読了 0 分 1361 字

読む →

AI研究 2026-01-26

Whisperのエンコーダとデコーダの両方で視覚特徴量を用いる耐雑音性視聴覚音声認識

TL;DRWhisperをベースとした視聴覚音声認識（AV-ASR）において、エンコーダとデコーダの両方で視覚的特徴を利用する「デュアルユース」手法が提案されました。この手法は、従来のミドル・フュージョンと比較して、特に騒音環境下での認識精度を大幅に向上させ、LRS3ベンチマークの騒音条件下で新たなSOTAを達成しました。

読了 0 分 1518 字

読む →

AI研究 2026-01-26

OCR強化型マルチモーダルASRは聞きながら読むことができる

TL;DR映画の字幕などの視覚情報を活用して音声認識精度を向上させる「Donut-Whisper」を提案。線形およびQ-Formerベースの位置合わせの利点を結合し、強力な視聴覚特徴を生成します。また、新たに中英混合の映画クリップデータセットを構築。Whisper等のベースラインと比較し、英語で5.75%のWER削減、中国語で16.5%のCER削減を達成しました。

読了 0 分 1456 字

読む →

AI研究 2026-01-26

VIBEVOICE-ASR テクニカルレポート

TL;DRVibeVoice-ASRは、会議やポッドキャストなどの長尺音声における文脈分断や話者識別の課題を解決する汎用音声理解フレームワークです。最大60分の音声を一括処理し、音声認識、話者分離、タイムスタンプ付与を単一タスクとして統合します。50以上の言語やコードスイッチングに対応し、プロンプトによる用語精度の向上も可能です。

読了 0 分 1193 字

読む →

保存済みの記事がまだありません。

読み込み中…

生成AIの最新動向を、読みやすいアーカイブで。

RedSage: サイバーセキュリティに特化した汎用LLM

最新の記事

RedSage: サイバーセキュリティに特化した汎用LLM

表現正則化を用いた畳み込みオーディオトランスフォーマーによる音声理解の向上

オーディオ理解のための表現正則化畳み込みオーディオトランスフォーマー

Qwen3-ASR テクニカルレポート

高度なTTSモデル時代における音声ディープフェイク検出：統合的アプローチの必要性

GMS-CAVP：マルチスケールの対照学習および生成的事前学習による視聴覚対応の改善

発見するための学習：忘却のないラーガ識別のための一般化フレームワーク

LTS-VoiceAgent：意味的トリガーと増分推論による効率的なストリーミング音声対話のための「聞く・考える・話す」フレームワーク

Whisperのエンコーダとデコーダの両方で視覚特徴量を用いる耐雑音性視聴覚音声認識

OCR強化型マルチモーダルASRは聞きながら読むことができる

VIBEVOICE-ASR テクニカルレポート

論文×チャット×知識DBを続けるなら

Free

Plus

Pro