タグ: cs.CV | Cog AI Archive

Cog AI Archive

最新の記事

公開記事: 64件タグ: cs.CV

RedSage: サイバーセキュリティに特化した汎用LLM

TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。

AI研究 2026-01-29 閲覧 36 クリック 16

最新人気保存済み長文のみ

AI研究 2026-01-29

UEval: 画像とテキストの両方を生成する統合モデルのためのベンチマーク

TL;DRUEvalは、画像とテキストの両方を生成できる「統合モデル」を評価するための新しいベンチマークである。8つの実世界タスクから厳選された1,000の質問で構成され、画像とテキストの両方を必要とする出力を評価する。

読了 0 分 1478 字

読む →

AI研究 2026-01-29

SINA: AIを用いた回路図画像からネットリストへの自動生成ツール

TL;DR回路図画像を機械可読なネットリストへ変換する際、部品認識や接続推論に課題があった。本研究では、深層学習による部品検出、CCLによる接続抽出、OCRとVLMを組み合わせた参照指定子の割り当てを統合したオープンソースツール「SINA」を提案する。実験では、既存の最先端手法の2.72倍となる96.47%の全体精度を達成した。

読了 0 分 1206 字

読む →

AI研究 2026-01-29

Vision-DeepResearch：マルチモーダル大規模言語モデルにおけるDeepResearch能力の動機付け

TL;DRマルチモーダル大規模言語モデル（MLLM）の知識不足を補うため、視覚・テキスト検索を強化する「Vision-DeepResearch」が提案された。これは複数回のターン、複数エンティティ、複数スケールでの検索を行い、ノイズの多い実環境でもロバストに機能する。

読了 0 分 1396 字

読む →

AI研究 2026-01-29

識別器駆動型拡散モデルによる教師なし分解と再結合

TL;DR複雑なデータを再利用可能な要素に分解し、それらを組み合わせて新しいサンプルを合成する手法の研究です。拡散モデルを用いて、教師データなしで潜在空間の要素分解を学習します。識別器による敵対的学習を導入し、要素を再結合した生成物の物理的・意味的な整合性を高めることで、画像の属性分解やロボットの動作生成において従来手法を上回る性能を達成しました。

読了 0 分 1389 字

読む →

AI研究 2026-01-29

異種モダリティ間のコミュニケーション学習：マルチエージェントシステムにおける知覚の不均質性

TL;DRエージェントが異なるモダリティを持ち、知覚的な共通基盤を欠く状況でのコミュニケーションゲームを研究した論文である。知覚の不整合があるにもかかわらず、マルチモーダルシステムは入力に基づいた一貫性のあるメッセージに収束することが示された。また、意味は構成的ではなく分布的にエンコードされていることが明らかになった。

読了 0 分 1327 字

読む →

AI研究 2026-01-29

マルチモーダル大規模言語モデルにおける「忘却」を視覚情報で導く新手法ViKeR

TL;DRマルチモーダル大規模言語モデル（MLLM）が特定の画像に関する個人情報を漏らさないようにする「アンラーニング（忘却）」に関する研究である。既存手法がすべての回答トークンを一律に扱うのに対し、本手法「ViKeR」は視覚情報を活用して重要なトークンを特定し、優先的に学習プロセスを調整する。

読了 0 分 1466 字

読む →

AI研究 2026-01-29

TraceRouter: 大規模基盤モデルのための経路レベル介入による堅牢な安全性

TL;DR大規模基盤モデル（LFM）の敵対的な操作に対する脆弱性を克服するため、有害な意味論の伝播回路を追跡・切断する「TraceRouter」が提案された。従来の局所的な介入とは異なり、注意の分岐分析、スパースオートエンコーダ、因果経路のマッピングを組み合わせることで、有害な情報の流れを物理的に遮断しつつ、一般的な有用性を維持することに成功している。

読了 0 分 1378 字

読む →

AI研究 2026-01-29

多様体射影によるフローマッチングの分類器なしガイダンスの改善

TL;DR拡散モデル等で広く使われるClassifier-Free Guidance (CFG) は、ヒューリスティックな線形外挿に依存しており、ガイダンススケールに敏感であるという課題がある。本研究ではCFGを最適化の観点から再解釈し、多様体制約付きのホモトピー最適化として定式化した。

読了 0 分 1313 字

読む →

AI研究 2026-01-29

海洋監視のための合成データを用いた船舶の単眼3D再構成

TL;DR本研究は、合成データのみで学習し、推論時には単一の画像から実世界の船舶を効率的に3D再構成するパイプラインを提案しています。Splatter Imageネットワークを用いて船舶を3Dガウス分布の疎な集合として表現し、合成データセットで学習することで、実世界の3Dアノテーションなしに高精度な再構成を実現しました。

読了 0 分 1366 字

読む →

AI研究 2026-01-29

マルチモーダル学習における幾何学的正則化：分散とアンカリングによる表現の改善

TL;DRマルチモーダル学習では、強力な最適化を行っても表現の崩壊やモーダル間の不整合が生じることがあります。本研究は表現の幾何学的構造に着目し、軽量な正則化手法「DAGR」を提案しました。モーダル内の多様性を高める分散制御と、モーダル間の過度な乖離を防ぐアンカリングにより、頑健な学習と性能向上を実現します。

読了 0 分 1135 字

読む →

保存済みの記事がまだありません。

読み込み中…

生成AIの最新動向を、読みやすいアーカイブで。

RedSage: サイバーセキュリティに特化した汎用LLM

最新の記事

RedSage: サイバーセキュリティに特化した汎用LLM

UEval: 画像とテキストの両方を生成する統合モデルのためのベンチマーク

SINA: AIを用いた回路図画像からネットリストへの自動生成ツール

Vision-DeepResearch：マルチモーダル大規模言語モデルにおけるDeepResearch能力の動機付け

識別器駆動型拡散モデルによる教師なし分解と再結合

異種モダリティ間のコミュニケーション学習：マルチエージェントシステムにおける知覚の不均質性

マルチモーダル大規模言語モデルにおける「忘却」を視覚情報で導く新手法ViKeR

TraceRouter: 大規模基盤モデルのための経路レベル介入による堅牢な安全性

多様体射影によるフローマッチングの分類器なしガイダンスの改善

海洋監視のための合成データを用いた船舶の単眼3D再構成

マルチモーダル学習における幾何学的正則化：分散とアンカリングによる表現の改善

論文×チャット×知識DBを続けるなら

Free

Plus

Pro