タグ: cs.CV | Cog AI Archive

Cog AI Archive

最新の記事

公開記事: 64件タグ: cs.CV

RedSage: サイバーセキュリティに特化した汎用LLM

TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。

AI研究 2026-01-29 閲覧 41 クリック 17

最新人気保存済み長文のみ

AI研究 2026-01-26

Whisperのエンコーダとデコーダの両方で視覚特徴量を用いる耐雑音性視聴覚音声認識

TL;DRWhisperをベースとした視聴覚音声認識（AV-ASR）において、エンコーダとデコーダの両方で視覚的特徴を利用する「デュアルユース」手法が提案されました。この手法は、従来のミドル・フュージョンと比較して、特に騒音環境下での認識精度を大幅に向上させ、LRS3ベンチマークの騒音条件下で新たなSOTAを達成しました。

読了 0 分 1518 字

読む →

AI研究 2026-01-26

頑健なマルチモーダル感情推論のためのきめ細かい視聴覚証拠の統合

TL;DRSABER-LLMは、従来の分類型から生成的推論へとシフトするマルチモーダル感情分析のための新フレームワークです。60万動画を含む大規模データセットSABERと、証拠抽出と推論を分離する構造化パラダイムを導入。皮肉のような複雑で矛盾を含む状況でも、既存のオープンソースモデルを凌駕する頑健な感情推論を実現しました。

読了 0 分 1297 字

読む →

AI研究 2026-01-26

TechING: VLMによる実世界の技術的画像理解に向けて

TL;DR手描きの技術的な図（フローチャートなど）を理解し、再編集可能な形式にするため、VLM（視覚言語モデル）の能力を向上させる研究です。実世界を反映した大規模な合成画像データセットと、新たな自己教師あり学習タスクを導入。Llama 3.2 11Bを微調整した「LLama-VL-TUG」は、ベースラインと比較して大幅な性能向上。

読了 0 分 1459 字

読む →

AI研究 2026-01-26

EfficientNetB2を用いた手法によるFER-2013データセットでの顔の表情認識

TL;DR本研究は、低画質でノイズの多いFER-2013データセットにおいて、EfficientNetB2を用いた軽量な表情認識手法を提案します。AdamW、ラベルスムージング、重み付けなどの最適化戦略と2段階学習により、VGG16の約1/10のパラメータ数でテスト精度68.78%を達成しました。

読了 0 分 1405 字

読む →

AI研究 2026-01-26

NaVIDA：逆動力学による拡張を用いた視覚言語ナビゲーション

TL;DRNaVIDAは、視覚言語ナビゲーション（VLN）のための新手法です。行動が視覚的な変化をどう引き起こすか（因果関係）を学習させる「チャンクベースの逆ダイナミクス」を導入しました。これにより、より正確な予測とエラー蓄積の抑制を実現し、既存の最先端手法よりも少ないパラメータ数（3B対8B）で優れた性能を達成しました。

読了 0 分 1390 字

読む →

AI研究 2026-01-26

エージェントによる超長時間動画理解

TL;DRスマートグラス等の常時着用デバイスの普及を見据え、数日〜数週間に及ぶ超長時間の自己中心的（Egocentric）動画を理解する新フレームワーク「EGAgent」が提案された。エンティティ・シーングラフを活用し、エージェントが構造化された検索と推論を行うことで、従来のLLMのコンテキスト制限を超えた複雑な長期間の文脈理解を実現する。

読了 0 分 1488 字

読む →

AI研究 2026-01-25

最小限の深層学習アーキテクチャの体系的な特性評価：収束、枝刈り、量子化の統一的解析

TL;DR本研究は、タスク解決に必要なディープラーニングの最小アーキテクチャを特定するための計算手法を提案する。DNN、CNN、ViTを用いた画像分類において、アーキテクチャ探索、収束性、枝刈り感度、量子化耐性を体系的に分析した。その結果、性能の普遍性や学習ダイナミクスの3つのレジーム、安定学習に必要な最小パラメータ数などを明らかにした。

読了 0 分 1404 字

読む →

AI研究 2026-01-25

Streaming-dLLM：サフィックス剪定と動的デコーディングによる拡散LLMの加速

TL;DR拡散大規模言語モデル（dLLM）の推論速度を劇的に向上させる、学習不要のフレームワーク「Streaming-dLLM」の提案です。冗長なトークンを削除する空間的な効率化と、不要な反復計算をスキップする時間的な効率化を組み合わせ、生成品質を維持しつつ最大68.2倍の高速化を達成しました。

読了 0 分 1479 字

読む →

AI研究 2026-01-25

ワンショットクラス増分学習のための特徴空間生成モデル

TL;DR1ショットのクラス増分学習（FSCIL）において、基本クラス学習後のモデル変更を伴わずに新規クラスへの適応能力を高める手法「Gen1S」を提案。基本クラスと新規クラスの埋め込み構造の類似性に着目し、VAEや拡散モデルを用いて特徴空間内の残差分布を学習することで、新規クラスの認識精度を大幅に向上させた。

読了 0 分 1296 字

読む →

AI研究 2026-01-25

脳波基盤モデル：進展、ベンチマーキング、および未解決の課題

TL;DR脳波（EEG）基盤モデルは大規模データから脳活動を学習する有望な技術ですが、公平な比較が欠如していました。本論文は50のモデルをレビューし、12の公開モデルを統一条件下で評価しました。その結果、既存手法の多くは線形プロービングでは不十分であり、専門特化モデルが依然として強力であること、モデル規模の拡大が必ずしも性能向上。

読了 0 分 1513 字

読む →

保存済みの記事がまだありません。

読み込み中…

前へ次へ

生成AIの最新動向を、読みやすいアーカイブで。

RedSage: サイバーセキュリティに特化した汎用LLM

最新の記事

RedSage: サイバーセキュリティに特化した汎用LLM

Whisperのエンコーダとデコーダの両方で視覚特徴量を用いる耐雑音性視聴覚音声認識

頑健なマルチモーダル感情推論のためのきめ細かい視聴覚証拠の統合

TechING: VLMによる実世界の技術的画像理解に向けて

EfficientNetB2を用いた手法によるFER-2013データセットでの顔の表情認識

NaVIDA：逆動力学による拡張を用いた視覚言語ナビゲーション

エージェントによる超長時間動画理解

最小限の深層学習アーキテクチャの体系的な特性評価：収束、枝刈り、量子化の統一的解析

Streaming-dLLM：サフィックス剪定と動的デコーディングによる拡散LLMの加速

ワンショットクラス増分学習のための特徴空間生成モデル

脳波基盤モデル：進展、ベンチマーキング、および未解決の課題

論文×チャット×知識DBを続けるなら

Free

Plus

Pro