Whisperのエンコーダとデコーダの両方で視覚特徴量を用いる耐雑音性視聴覚音声認識
TL;DRWhisperをベースとした視聴覚音声認識(AV-ASR)において、エンコーダとデコーダの両方で視覚的特徴を利用する「デュアルユース」手法が提案されました。この手法は、従来のミドル・フュージョンと比較して、特に騒音環境下での認識精度を大幅に向上させ、LRS3ベンチマークの騒音条件下で新たなSOTAを達成しました。
AI研究の要点を整理。最新の論文記事をカテゴリやタグで探索できます。
運営: Cognitive Research Labs(CRL) / crl.co.jp
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
Cog AI Archive
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
TL;DRWhisperをベースとした視聴覚音声認識(AV-ASR)において、エンコーダとデコーダの両方で視覚的特徴を利用する「デュアルユース」手法が提案されました。この手法は、従来のミドル・フュージョンと比較して、特に騒音環境下での認識精度を大幅に向上させ、LRS3ベンチマークの騒音条件下で新たなSOTAを達成しました。
TL;DRSABER-LLMは、従来の分類型から生成的推論へとシフトするマルチモーダル感情分析のための新フレームワークです。60万動画を含む大規模データセットSABERと、証拠抽出と推論を分離する構造化パラダイムを導入。皮肉のような複雑で矛盾を含む状況でも、既存のオープンソースモデルを凌駕する頑健な感情推論を実現しました。
TL;DR手描きの技術的な図(フローチャートなど)を理解し、再編集可能な形式にするため、VLM(視覚言語モデル)の能力を向上させる研究です。実世界を反映した大規模な合成画像データセットと、新たな自己教師あり学習タスクを導入。Llama 3.2 11Bを微調整した「LLama-VL-TUG」は、ベースラインと比較して大幅な性能向上。
TL;DR本研究は、低画質でノイズの多いFER-2013データセットにおいて、EfficientNetB2を用いた軽量な表情認識手法を提案します。AdamW、ラベルスムージング、重み付けなどの最適化戦略と2段階学習により、VGG16の約1/10のパラメータ数でテスト精度68.78%を達成しました。
TL;DRNaVIDAは、視覚言語ナビゲーション(VLN)のための新手法です。行動が視覚的な変化をどう引き起こすか(因果関係)を学習させる「チャンクベースの逆ダイナミクス」を導入しました。これにより、より正確な予測とエラー蓄積の抑制を実現し、既存の最先端手法よりも少ないパラメータ数(3B対8B)で優れた性能を達成しました。
TL;DRスマートグラス等の常時着用デバイスの普及を見据え、数日〜数週間に及ぶ超長時間の自己中心的(Egocentric)動画を理解する新フレームワーク「EGAgent」が提案された。エンティティ・シーングラフを活用し、エージェントが構造化された検索と推論を行うことで、従来のLLMのコンテキスト制限を超えた複雑な長期間の文脈理解を実現する。
TL;DR本研究は、タスク解決に必要なディープラーニングの最小アーキテクチャを特定するための計算手法を提案する。DNN、CNN、ViTを用いた画像分類において、アーキテクチャ探索、収束性、枝刈り感度、量子化耐性を体系的に分析した。その結果、性能の普遍性や学習ダイナミクスの3つのレジーム、安定学習に必要な最小パラメータ数などを明らかにした。
TL;DR拡散大規模言語モデル(dLLM)の推論速度を劇的に向上させる、学習不要のフレームワーク「Streaming-dLLM」の提案です。冗長なトークンを削除する空間的な効率化と、不要な反復計算をスキップする時間的な効率化を組み合わせ、生成品質を維持しつつ最大68.2倍の高速化を達成しました。
TL;DR1ショットのクラス増分学習(FSCIL)において、基本クラス学習後のモデル変更を伴わずに新規クラスへの適応能力を高める手法「Gen1S」を提案。基本クラスと新規クラスの埋め込み構造の類似性に着目し、VAEや拡散モデルを用いて特徴空間内の残差分布を学習することで、新規クラスの認識精度を大幅に向上させた。
TL;DR脳波(EEG)基盤モデルは大規模データから脳活動を学習する有望な技術ですが、公平な比較が欠如していました。本論文は50のモデルをレビューし、12の公開モデルを統一条件下で評価しました。その結果、既存手法の多くは線形プロービングでは不十分であり、専門特化モデルが依然として強力であること、モデル規模の拡大が必ずしも性能向上。
Pricing