論文検索 新着 人気
毎日更新
AI Data Base

生成AIの最新動向を、読みやすいアーカイブで。

AI研究の要点を整理。最新の論文記事をカテゴリやタグで探索できます。

新着 論文 人気 無料で試す
Popular

RedSage: サイバーセキュリティに特化した汎用LLM

TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。

Cog AI Archive

最新の記事

人気記事ピックアップ

RedSage: サイバーセキュリティに特化した汎用LLM

TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。

AI研究 2026-01-29 閲覧 20 クリック 11

周波数帯域の摂動を用いた機械異常音検知のための説明可能AIにおける忠実度評価フレームワーク

TL;DR機械の異常音検知モデルに対する説明可能AI(XAI)の信頼性を定量的に評価する新しいフレームワークを提案した研究。周波数帯域を体系的に除去することで、属性の関連性とモデルの挙動を直接リンクさせる手法を導入した。4つの既存手法を比較した結果、Occlusion法が最もモデル感度と整合性が高く、勾配ベースの手法はスペクトル依存性の捉え方に課題があることを示した。

読了 0 分 1412 字
読む →

SICL-AT:聴覚LLMを低リソースタスクに適応させる新手法

TL;DR聴覚LLMは多くの音声タスクで高性能ですが、データ不足や未知のタスクには苦戦します。本研究は、少数の実例を提示して推論させる「文脈内学習(ICL)」の有効性を確認し、高リソース音声データのみを用いてICL能力を強化する学習手法「SICL-AT」を提案しました。低リソース環境下で直接微調整するよりも高い性能を示しています。

読了 0 分 1292 字
読む →

語族の重要性:言語の境界を越えたLLMベースのASRの評価

TL;DR大規模言語モデル(LLM)を用いた音声認識において、言語ごとに個別の接続モジュール(コネクタ)を学習させる従来の手法に対し、本研究では「語族」ごとにコネクタを共有する効率的な新手法を提案しました。2つの多言語LLMと2つの実データセットを用いた実験により、パラメータ数を削減しつつ、異なるドメインへの汎化性能を向上させることを実証しました。

読了 0 分 1284 字
読む →

LTS-VoiceAgent:意味的トリガーと増分推論による効率的なストリーミング音声対話のための「聞く・考える・話す」フレームワーク

TL;DRリアルタイム音声エージェントの課題である、深い推論能力と低遅延の両立を目指したフレームワーク「LTS-VoiceAgent」の提案。意味のある発話単位を検出して処理を開始する動的トリガーと、バックグラウンドでの思考とフォアグラウンドでの発話を並行させる仕組みにより、精度と効率を維持しつつ応答速度を大幅に向上させました。

読了 0 分 1361 字
読む →

Whisperのエンコーダとデコーダの両方で視覚特徴量を用いる耐雑音性視聴覚音声認識

TL;DRWhisperをベースとした視聴覚音声認識(AV-ASR)において、エンコーダとデコーダの両方で視覚的特徴を利用する「デュアルユース」手法が提案されました。この手法は、従来のミドル・フュージョンと比較して、特に騒音環境下での認識精度を大幅に向上させ、LRS3ベンチマークの騒音条件下で新たなSOTAを達成しました。

読了 0 分 1518 字
読む →

OCR強化型マルチモーダルASRは聞きながら読むことができる

TL;DR映画の字幕などの視覚情報を活用して音声認識精度を向上させる「Donut-Whisper」を提案。線形およびQ-Formerベースの位置合わせの利点を結合し、強力な視聴覚特徴を生成します。また、新たに中英混合の映画クリップデータセットを構築。Whisper等のベースラインと比較し、英語で5.75%のWER削減、中国語で16.5%のCER削減を達成しました。

読了 0 分 1456 字
読む →

不均衡補正を伴う音源定位のための解析的増分学習

TL;DR音源定位(SSL)において、方向分布の偏りやタスク間の重複が引き起こす「忘却」の問題に対処する新たな枠組みを提案。GCC-PHATに基づくデータ拡張(GDA)でタスク内の分布偏りを緩和し、解析的な動的不均衡是正器(ADIR)でタスク間の変化に適応する。SSLRベンチマークで最高精度89.0%を達成した。

読了 0 分 1397 字
読む →

VIBEVOICE-ASR テクニカルレポート

TL;DRVibeVoice-ASRは、会議やポッドキャストなどの長尺音声における文脈分断や話者識別の課題を解決する汎用音声理解フレームワークです。最大60分の音声を一括処理し、音声認識、話者分離、タイムスタンプ付与を単一タスクとして統合します。50以上の言語やコードスイッチングに対応し、プロンプトによる用語精度の向上も可能です。

読了 0 分 1193 字
読む →

セグメント長は重要である:音声指紋照合の性能におけるセグメント長の研究

TL;DR音声フィンガープリンティングにおける入力音声のセグメント長が検索性能に与える影響を調査した研究。既存のニューラルアーキテクチャを拡張し多様な長さで評価した結果、0.5秒という短いセグメント長が一般的に優れた性能を示すことが判明した。また、LLMによる最適な長さの推奨能力も評価され、GPT-5-miniが最も優れた提案を行った。

読了 0 分 1420 字
読む →

BanglaRobustNet:堅牢なベンガル語音声認識のためのハイブリッドなノイズ除去アテンションアーキテクチャ

TL;DRバングラ語音声認識において、ノイズや話者の多様性に対応する「BanglaRobustNet」が提案された。Wav2Vec-BERTを基盤に、拡散ベースのノイズ除去と話者情報を考慮した注意機構を統合したハイブリッドモデルである。Mozilla Common Voiceなどでの評価により、ベースラインと比較してWERとCE

読了 0 分 1289 字
読む →
保存済みの記事がまだありません。
読み込み中…

Pricing

論文×チャット×知識DBを続けるなら

Free

¥0
  • 要約閲覧
  • 全文は月 2 本まで
  • チャットは月 3 回まで
無料で始める

Plus

¥1,780 / 月
  • 全文閲覧無制限
  • スレッド保存
  • Flashモデル
  • チャット上限 300 回/月
Plusで始める

Pro

¥2,980 / 月
  • 全文閲覧無制限
  • スレッド保存
  • 長文回答(Proモデル)
  • チャット上限 800 回/月
Proで始める