タグ: cs.CV | Cog AI Archive

Cog AI Archive

最新の記事

公開記事: 64件タグ: cs.CV

RedSage: サイバーセキュリティに特化した汎用LLM

TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。

AI研究 2026-01-29 閲覧 20 クリック 11

最新人気保存済み長文のみ

AI研究 2026-01-29

SONIC-O1: 音声・動画理解におけるマルチモーダル大規模言語モデル評価のための実世界ベンチマーク

TL;DRSONIC-O1は、マルチモーダル大規模言語モデル（MLLM）の音声・動画理解能力を評価するための新しいベンチマークです。13の実世界領域から収集された4,958件の人間による検証済みアノテーションを含み、要約や時間的特定などのタスクを評価します。

読了 0 分 1215 字

読む →

AI研究 2026-01-29

生成モデルを加速するBi-Anchor補間ソルバー

TL;DRFlow Matchingモデルの生成速度を向上させるため、軽量なSideNetを活用した「BA-solver」が提案されました。この手法は、凍結されたバックボーンと少数のアンカー速度を用いて中間速度を高精度に補間し、少ないステップ数での高品質な画像生成を可能にします。

読了 0 分 1247 字

読む →

AI研究 2026-01-29

生成モデリング高速化のためのバイアンカー補間ソルバー

TL;DRFlow Matchingモデルの生成速度を向上させる「BA-solver」が提案されました。この手法は、凍結されたバックボーンに軽量なSideNetを追加し、双方向の時間知覚と2つのアンカー速度を用いた補間により、少ないステップ数で高精度な生成を実現します。

読了 0 分 1240 字

読む →

AI研究 2026-01-29

視覚トークン圧縮下における大規模視覚言語モデルの敵対的堅牢性について

TL;DR大規模視覚言語モデルの高速化に用いられる視覚トークン圧縮が、敵対的攻撃への耐性に与える影響を調査した研究です。従来の攻撃手法では圧縮による情報の欠落を考慮できず、堅牢性を過大評価する傾向がありました。提案手法「CAGE」は、圧縮プロセスを考慮した最適化により、効率的なモデルにおける真の脆弱性を明らかにします。

読了 0 分 1278 字

読む →

AI研究 2026-01-29

視覚トークン圧縮下における大規模視覚言語モデルの敵対的堅牢性について

TL;DR大規模視覚言語モデルの高速化に用いられる視覚トークン圧縮が、敵対的攻撃への耐性に与える影響を調査した研究です。従来の攻撃手法は圧縮工程を考慮していないため、モデルの堅牢性を過大評価する傾向があります。

読了 0 分 1289 字

読む →

AI研究 2026-01-29

一貫性から相補性へ：時系列の理解と推論に向けた整列・解きほぐしマルチモーダル学習

TL;DR本研究は、数値データと可視化画像を統合して時系列データを理解するマルチモーダルLLM「MADI」を提案しています。パッチレベルの整列、共通・固有情報の分離、重要なトークンの強調という3つの手法を導入し、従来モデルが抱えていた情報の混在や不整合を解消しました。

読了 0 分 1270 字

読む →

AI研究 2026-01-29

一貫性から相補性へ：時系列の理解と推論に向けた整列・解絡型マルチモーダル学習

TL;DR本研究は、時系列データの数値情報と可視化プロットを統合して理解・推論を行うマルチモーダルLLM「MADI」を提案します。パッチレベルの整列、共通・固有セマンティクスの分離、重要なトークンの強調という3つの手法により、モーダル間の不一致や情報の絡まりを解消します。

読了 0 分 1233 字

読む →

AI研究 2026-01-29

UniMRG: 多様な表現の生成を通じて統一マルチモーダルモデルの理解能力を向上させる手法

TL;DR統一マルチモーダルモデル（UMM）において、生成能力を利用して理解能力を向上させる手法「UniMRG」が提案されました。ピクセル再構成、深度、セグメンテーションといった複数の表現を生成する補助タスクを導入することで、視覚情報の深い理解を促します。

読了 0 分 1153 字

読む →

AI研究 2026-01-29

最適輸送理論に基づくサンプル生成による分布外データの過剰適合抑制

TL;DR深層学習モデルが未知のデータに対して高い確信度を持つ問題を解決するため、最適輸送理論を用いた新たな手法が提案されました。潜在空間における特異な境界付近から「OTIS」と呼ばれる曖昧なサンプルを生成し、学習時にその確信度を抑制します。実験の結果、従来手法を上回る精度で過剰な確信度を抑制できることが示されました。

読了 0 分 1185 字

読む →

AI研究 2026-01-29

Drive-KD: 自動運転VLMのためのマルチティーチャー知識蒸留

TL;DR自動運転におけるVLMの効率化を目指し、知覚・推論・計画の3要素を複数の教師モデルから小規模モデルへ継承する「Drive-KD」が提案されました。層固有のアテンション信号を利用した知識蒸留と勾配衝突を抑制する手法により、1Bモデルで78Bモデルを凌駕する性能と高い推論効率を両立することに成功しています。

読了 0 分 1195 字

読む →

保存済みの記事がまだありません。

読み込み中…

前へ次へ

生成AIの最新動向を、読みやすいアーカイブで。

RedSage: サイバーセキュリティに特化した汎用LLM

最新の記事

RedSage: サイバーセキュリティに特化した汎用LLM

SONIC-O1: 音声・動画理解におけるマルチモーダル大規模言語モデル評価のための実世界ベンチマーク

生成モデルを加速するBi-Anchor補間ソルバー

生成モデリング高速化のためのバイアンカー補間ソルバー

視覚トークン圧縮下における大規模視覚言語モデルの敵対的堅牢性について

視覚トークン圧縮下における大規模視覚言語モデルの敵対的堅牢性について

一貫性から相補性へ：時系列の理解と推論に向けた整列・解きほぐしマルチモーダル学習

一貫性から相補性へ：時系列の理解と推論に向けた整列・解絡型マルチモーダル学習

UniMRG: 多様な表現の生成を通じて統一マルチモーダルモデルの理解能力を向上させる手法

最適輸送理論に基づくサンプル生成による分布外データの過剰適合抑制

Drive-KD: 自動運転VLMのためのマルチティーチャー知識蒸留

論文×チャット×知識DBを続けるなら

Free

Plus

Pro