Vision-DeepResearch:マルチモーダル大規模言語モデルにおけるDeepResearch能力の動機付け
TL;DRマルチモーダル大規模言語モデル(MLLM)の知識不足を補うため、視覚・テキスト検索を強化する「Vision-DeepResearch」が提案された。これは複数回のターン、複数エンティティ、複数スケールでの検索を行い、ノイズの多い実環境でもロバストに機能する。
AI研究の要点を整理。最新の論文記事をカテゴリやタグで探索できます。
運営: Cognitive Research Labs(CRL) / crl.co.jp
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
Cog AI Archive
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
TL;DRマルチモーダル大規模言語モデル(MLLM)の知識不足を補うため、視覚・テキスト検索を強化する「Vision-DeepResearch」が提案された。これは複数回のターン、複数エンティティ、複数スケールでの検索を行い、ノイズの多い実環境でもロバストに機能する。
TL;DR複雑なデータを再利用可能な要素に分解し、それらを組み合わせて新しいサンプルを合成する手法の研究です。拡散モデルを用いて、教師データなしで潜在空間の要素分解を学習します。識別器による敵対的学習を導入し、要素を再結合した生成物の物理的・意味的な整合性を高めることで、画像の属性分解やロボットの動作生成において従来手法を上回る性能を達成しました。
TL;DR本研究は、低リソース言語であるペルシャ語のことわざ理解を評価するベンチマーク「MasalBench」を提案する。8つの最先端LLMを評価した結果、文脈内でのことわざ識別は高精度だったが、英語の同義ことわざを見つけるタスクでは性能が低下した。これはLLMの文化的知識と類推推論における限界を示唆している。
TL;DR大規模言語モデル(LLM)において、指示に従う能力がタスク解決能力を阻害する逆説的な現象が明らかになった。研究チームは、モデルが自然に満たしている自明な制約を指示に追加するだけで、数学やコード生成などのタスク性能が大幅に低下することを発見した。
TL;DRSIAは、予測情報を活用する深層強化学習(DRL)エージェントの意思決定プロセスをリアルタイムで解釈可能にする世界初の手法である。記号的AIと知識グラフを融合し、既存手法より200倍以上高速に動作する。
TL;DRエージェントが異なるモダリティを持ち、知覚的な共通基盤を欠く状況でのコミュニケーションゲームを研究した論文である。知覚の不整合があるにもかかわらず、マルチモーダルシステムは入力に基づいた一貫性のあるメッセージに収束することが示された。また、意味は構成的ではなく分布的にエンコードされていることが明らかになった。
TL;DR従来の小規模言語モデルでは、埋め込み行列がパラメータの多くを占有し、効率が低下するという課題がありました。本研究では、離散的なルックアップテーブルを連続的な埋め込み生成器に置き換える新アーキテクチャ「Leviathan」を提案します。評価の結果、同等のパラメータ数で標準的なモデルを凌駕し、最大2.
TL;DRエージェント型AIの効率と堅牢性を向上させるフレームワーク「Agent Workflow Optimization (AWO)」が提案された。AWOは、繰り返されるツール実行パターンを分析して「メタツール」に変換し、中間の推論ステップを省略する。これにより、LLM呼び出し数を最大11.9%削減し、タスク成功率を最大4.
TL;DR自己回帰型モデルは左から右への生成順序に縛られるため、結論を先に述べる形式では推論が困難になる課題があります。本研究は、全トークンを並列に洗練する拡散言語モデル(MDLM)が、出力順序に依存せず推論を行う「順序の堅牢性」を持つことを示しました。実験では、回答を先に求める設定でもMDLMは高い精度を維持しました。
TL;DR本研究は、自己回帰モデル(ARM)の学習効率と拡散モデルの高速な推論能力を統合した新しいフレームワーク「CARD」を提案する。厳密な因果的注意マスクを用いて拡散プロセスを再構築し、単一のフォワードパスで高密度な監視を可能にした。既存の離散拡散モデルを上回る性能を示しつつ、学習遅延を3分の1に短縮することに成功している。
Pricing