UEval: 画像とテキストの両方を生成する統合モデルのためのベンチマーク
TL;DRUEvalは、画像とテキストの両方を生成できる「統合モデル」を評価するための新しいベンチマークである。8つの実世界タスクから厳選された1,000の質問で構成され、画像とテキストの両方を必要とする出力を評価する。
AI研究の要点を整理。最新の論文記事をカテゴリやタグで探索できます。
運営: Cognitive Research Labs(CRL) / crl.co.jp
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
Cog AI Archive
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
TL;DRUEvalは、画像とテキストの両方を生成できる「統合モデル」を評価するための新しいベンチマークである。8つの実世界タスクから厳選された1,000の質問で構成され、画像とテキストの両方を必要とする出力を評価する。
TL;DR回路図画像を機械可読なネットリストへ変換する際、部品認識や接続推論に課題があった。本研究では、深層学習による部品検出、CCLによる接続抽出、OCRとVLMを組み合わせた参照指定子の割り当てを統合したオープンソースツール「SINA」を提案する。実験では、既存の最先端手法の2.72倍となる96.47%の全体精度を達成した。
TL;DRマルチモーダル大規模言語モデル(MLLM)の知識不足を補うため、視覚・テキスト検索を強化する「Vision-DeepResearch」が提案された。これは複数回のターン、複数エンティティ、複数スケールでの検索を行い、ノイズの多い実環境でもロバストに機能する。
TL;DR複雑なデータを再利用可能な要素に分解し、それらを組み合わせて新しいサンプルを合成する手法の研究です。拡散モデルを用いて、教師データなしで潜在空間の要素分解を学習します。識別器による敵対的学習を導入し、要素を再結合した生成物の物理的・意味的な整合性を高めることで、画像の属性分解やロボットの動作生成において従来手法を上回る性能を達成しました。
TL;DRエージェントが異なるモダリティを持ち、知覚的な共通基盤を欠く状況でのコミュニケーションゲームを研究した論文である。知覚の不整合があるにもかかわらず、マルチモーダルシステムは入力に基づいた一貫性のあるメッセージに収束することが示された。また、意味は構成的ではなく分布的にエンコードされていることが明らかになった。
TL;DRマルチモーダル大規模言語モデル(MLLM)が特定の画像に関する個人情報を漏らさないようにする「アンラーニング(忘却)」に関する研究である。既存手法がすべての回答トークンを一律に扱うのに対し、本手法「ViKeR」は視覚情報を活用して重要なトークンを特定し、優先的に学習プロセスを調整する。
TL;DR大規模基盤モデル(LFM)の敵対的な操作に対する脆弱性を克服するため、有害な意味論の伝播回路を追跡・切断する「TraceRouter」が提案された。従来の局所的な介入とは異なり、注意の分岐分析、スパースオートエンコーダ、因果経路のマッピングを組み合わせることで、有害な情報の流れを物理的に遮断しつつ、一般的な有用性を維持することに成功している。
TL;DR拡散モデル等で広く使われるClassifier-Free Guidance (CFG) は、ヒューリスティックな線形外挿に依存しており、ガイダンススケールに敏感であるという課題がある。本研究ではCFGを最適化の観点から再解釈し、多様体制約付きのホモトピー最適化として定式化した。
TL;DR本研究は、合成データのみで学習し、推論時には単一の画像から実世界の船舶を効率的に3D再構成するパイプラインを提案しています。Splatter Imageネットワークを用いて船舶を3Dガウス分布の疎な集合として表現し、合成データセットで学習することで、実世界の3Dアノテーションなしに高精度な再構成を実現しました。
TL;DRマルチモーダル学習では、強力な最適化を行っても表現の崩壊やモーダル間の不整合が生じることがあります。本研究は表現の幾何学的構造に着目し、軽量な正則化手法「DAGR」を提案しました。モーダル内の多様性を高める分散制御と、モーダル間の過度な乖離を防ぐアンカリングにより、頑健な学習と性能向上を実現します。
Pricing