継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

CE-RM:2段階ロールアウトと統一基準で最適化された4Bパラメータの生成型報酬モデル

従来の生成型報酬モデルは、ベンチマークでの高スコアが実際の強化学習の成果に結びつかない「乖離」や、ペアワイズ評価による計算コストの増大、評価基準の不一致という課題を抱えていた。本研究は、クエリのみに基づいた「統一基準」を生成した後に各回答を個別に評価する、2段階ロールアウトを採用した40億パラメータのポイントワイズ報酬モデル「CE-RM-4B」を提案した。約5,700件の高品質データを用いた学習により、700億パラメータ級のモデルを凌駕する評価精度を達成し、実際の強化学習(RL)においても一貫性のある報酬信号を提供することで、下流タスクの性能を効果的に向上させることに成功した。

7326 字
読む →

トポロジーを考慮した最適輸送による異常セグメンテーションのテスト時適応

従来の異常セグメンテーションは、分布シフトに対して脆弱な固定の閾値設定に依存しており、未知のドメインやノイズに対して精度が著しく低下する課題がありました。本研究では、トポロジー的データ解析(TDA)と最適輸送(OT)を統合した「TopoOT」を提案し、データの幾何学的構造の持続性を利用して、閾値に依存しない安定した擬似ラベルを生成する仕組みを構築しました。検証の結果、2Dおよび3Dの主要ベンチマークにおいて従来手法を最大24.1%上回る性能を達成し、121 FPSという高速な処理速度と低メモリ消費を両立しつつ、多様なバックボーンへの高い適応能力を示しました。

7296 字
読む →

LLMエージェントによる教示不要のロボット制御

FAEA(Frontier Agent as Embodied Agent)は、ソフトウェア開発用に設計された汎用LLMエージェントであるClaude Agent SDKを、一切の変更を加えずそのままロボット操作に適用した手法であり、事前のデモンストレーションや追加学習を必要とせずに、試行錯誤を通じたプログラム合成によって自律的にタスクを遂行する。 LIBERO、ManiSkill3、MetaWorldという3つの主要なベンチマークにおいて、特権的な環境状態を利用することでそれぞれ84.9%、85.7%、96%という高い成功率を達成し、最大100件のデモンストレーションで学習した既存の視覚・言語・行動(VLA)モデルに匹敵、あるいはそれを上回る性能を示した。 この手法は、エージェントがシミュレーション内で自律的に成功軌道を生成できるため、ロボット学習のためのデータ拡張ツールとしての実用性が高く、汎用モデルの進化やエージェント基盤の改善がそのままロボット制御の向上に直結する新しいパラダイムを提示している。

5752 字
読む →

MobileBench-OL: 実世界のモバイル環境におけるGUIエージェントのための包括的中国語ベンチマーク

実世界のモバイル環境でGUIエージェントを評価するため、80種類の中国語アプリから1080個のタスクを収録したオンラインベンチマーク「MobileBench-OL」が開発されました。 従来の評価手法が単純な指示への追従に偏っていたのに対し、本手法は20ステップ以上の長期推論、アイコン理解や隠れた機能の探索、さらにポップアップや遅延といった実環境特有のノイズへの耐性を多角的に測定します。 自動評価フレームワークとデバイス状態を復元するリセットメカニズムを導入して12種類の主要エージェントを評価した結果、実世界の要求を満たすには依然として大きな改善の余地があることが明らかになりました。

5922 字
読む →

ホワイトペーパーの主張は市場の動きを予測できるか?仮想通貨の要因分析による検証

仮想通貨プロジェクトがホワイトペーパーで提示する技術的・機能的な物語(ナラティブ)と、実際の市場データから抽出された要因構造の間に、数学的な整合性が存在するかを自然言語処理とテンソル分解を用いて検証した。 分析の結果、ホワイトペーパーの主張と市場の潜在的要因の間には極めて弱い整合性(一致係数0.

5641 字
読む →

生成順序とトークン空間の同時探索による拡散言語モデルのデコーディング改善

拡散言語モデル(DLM)が持つ「生成順序に依存しない」という潜在的な利点を引き出すため、生成順序とトークンの値を同時に探索する新しいアルゴリズム「Order-Token Search」が提案されました。

7231 字
読む →

AutoGenを用いたマルチモーダル・マルチエージェント・ランサムウェア解析

現代の高度なランサムウェアに対抗するため、静的・動的・ネットワークの3つの情報を統合し、AutoGenを活用したマルチエージェント・フレームワーク「MMMA-RA」を提案する。 各モダリティに特化したエージェントがオートエンコーダーと対照学習を用いて特徴を抽出し、トランスフォーマー分類器とエージェント間のフィードバックにより、Macro-F1スコア0.936という高い精度でファミリーを特定する。 100エポックの試行でエージェントの品質が0.75以上向上し、信頼性を意識した棄権メカニズムの導入により、不確実な状況では保守的な判断を下すことで実運用における信頼性を確保した。

5682 字
読む →

マルチエージェント協調による適応型メモリシステム「AMA」

大規模言語モデル(LLM)エージェントが長期的な対話や複雑な推論を遂行するために、4つの専門エージェントが協調してメモリを管理する新フレームワーク「AMA(Adaptive Memory via Multi-Agent Collaboration)」が提案されました。

6828 字
読む →

TABED: LVLMにおける堅牢な推測デコーディングのためのテスト時適応アンサンブルドラフト

大規模視覚言語モデル(LVLM)の推論を大幅に加速させるため、複数のドラフトモデルをテスト時に動的に統合する新手法「TABED」が提案されました。従来の推測デコーディングでは、視覚情報の有無によって加速性能が不安定になる課題がありましたが、本手法は過去の検証結果から最適な重みを適応的に決定することで、多様なシナリオで一貫した高速化を実現します。追加の学習を一切必要としないプラグアンドプレイな設計でありながら、平均で1.74倍の速度向上を達成し、既存の単一ドラフト手法を5%以上上回る堅牢な性能を幅広いベンチマークで示しました。

5642 字
読む →

Transformerベースのモデルを用いたマルチエージェント軌道予測における教師なし異常検知

自動運転の安全性評価において、稀にしか発生しない危険なシナリオを効率的に特定するため、マルチエージェント間の複雑な相互作用を考慮できるTransformerベースの教師なし異常検知フレームワークを開発し、ラベルのない大規模な自然運転データから物理的な意味を持つリスクを抽出する手法を確立しました。

6001 字
読む →