継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

内発的リプロンプティング:統合マルチモーダルモデルのための自己進化型認知アライメント

統合マルチモーダルモデル(UMM)において、高度な理解能力が生成能力に反映されない「認知の溝」を解消するため、モデル内部で自己完結的にプロンプトを再構成する「内発的リプロンプティング」が提案されました。

6907 字
読む →

SuperInfer:スーパーチップ上でのLLM推論を最適化するSLO認識型スケジューリングとメモリ管理

SuperInferは、NVIDIA GH200のようなスーパーチップ環境において、大規模言語モデル(LLM)推論の遅延サービスレベル目標(SLO)を達成するために設計された、新しいスケジューリングおよびメモリ管理システムである。

6385 字
読む →

ECG-Agent: デバイス上で動作する、心電図(ECG)対話のためのツール呼び出しエージェント

従来の心電図解析AIが抱えていた「複数回の対話が困難」「デバイス上での動作にはモデルが巨大すぎる」「波形の微細な測定精度が低い」という3つの主要な課題を解決するため、外部ツールを自在に使いこなす軽量なAIエージェント「ECG-Agent」を開発しました。

6460 字
読む →

スピードアップの先へ:KVキャッシュをサンプリングと推論に活用する

大規模言語モデルの推論を高速化するために不可欠なKVキャッシュを、単なる加速手段ではなく、下流タスクのための軽量な表現(埋め込み)として再利用する手法が提案されました。 この手法は、追加の計算コストやメモリ消費をほとんど伴わずに、推論パスの選択を行うChain-of-Embeddingや、問題の難易度に応じて思考の深さを切り替えるFast/Slow Thinking Switchに適用可能です。 実験では、Llama-3.1やQwen2などのモデルにおいて、フル状態の隠れ層を用いる手法に匹敵する性能を示しつつ、特定のタスクでは生成トークン数を最大5.7倍削減することに成功しました。

6625 字
読む →

LLMエージェントによる教示不要のロボット制御

FAEA(Frontier Agent as Embodied Agent)は、ソフトウェア開発用に設計された汎用LLMエージェントであるClaude Agent SDKを、一切の変更を加えずそのままロボット操作に適用した手法であり、事前のデモンストレーションや追加学習を必要とせずに、試行錯誤を通じたプログラム合成によって自律的にタスクを遂行する。 LIBERO、ManiSkill3、MetaWorldという3つの主要なベンチマークにおいて、特権的な環境状態を利用することでそれぞれ84.9%、85.7%、96%という高い成功率を達成し、最大100件のデモンストレーションで学習した既存の視覚・言語・行動(VLA)モデルに匹敵、あるいはそれを上回る性能を示した。 この手法は、エージェントがシミュレーション内で自律的に成功軌道を生成できるため、ロボット学習のためのデータ拡張ツールとしての実用性が高く、汎用モデルの進化やエージェント基盤の改善がそのままロボット制御の向上に直結する新しいパラダイムを提示している。

5752 字
読む →

MobileBench-OL: 実世界のモバイル環境におけるGUIエージェントのための包括的中国語ベンチマーク

実世界のモバイル環境でGUIエージェントを評価するため、80種類の中国語アプリから1080個のタスクを収録したオンラインベンチマーク「MobileBench-OL」が開発されました。 従来の評価手法が単純な指示への追従に偏っていたのに対し、本手法は20ステップ以上の長期推論、アイコン理解や隠れた機能の探索、さらにポップアップや遅延といった実環境特有のノイズへの耐性を多角的に測定します。 自動評価フレームワークとデバイス状態を復元するリセットメカニズムを導入して12種類の主要エージェントを評価した結果、実世界の要求を満たすには依然として大きな改善の余地があることが明らかになりました。

5922 字
読む →

AutoGenを用いたマルチモーダル・マルチエージェント・ランサムウェア解析

現代の高度なランサムウェアに対抗するため、静的・動的・ネットワークの3つの情報を統合し、AutoGenを活用したマルチエージェント・フレームワーク「MMMA-RA」を提案する。 各モダリティに特化したエージェントがオートエンコーダーと対照学習を用いて特徴を抽出し、トランスフォーマー分類器とエージェント間のフィードバックにより、Macro-F1スコア0.936という高い精度でファミリーを特定する。 100エポックの試行でエージェントの品質が0.75以上向上し、信頼性を意識した棄権メカニズムの導入により、不確実な状況では保守的な判断を下すことで実運用における信頼性を確保した。

5682 字
読む →

マルチエージェント協調による適応型メモリシステム「AMA」

大規模言語モデル(LLM)エージェントが長期的な対話や複雑な推論を遂行するために、4つの専門エージェントが協調してメモリを管理する新フレームワーク「AMA(Adaptive Memory via Multi-Agent Collaboration)」が提案されました。

6828 字
読む →

OmegaUse: 自律的なタスク実行のための汎用GUIエージェントの構築

OmegaUseは、モバイルとデスクトップの両方のプラットフォームにおいて自律的なタスク実行を実現するために設計された、Mixture-of-Experts(MoE)アーキテクチャに基づく汎用的なグラフィカルユーザインターフェース(GUI)エージェントモデルである。

5783 字
読む →

AGENTS.mdファイルがAIコーディングエージェントの効率に与える影響

AIコーディングエージェントの運用効率を向上させるため、リポジトリレベルの構成ファイルであるAGENTS.mdが実行時間やトークン消費量に与える影響を、10個のリポジトリと124個のプルリクエストを用いて実験的に調査した。 実験の結果、AGENTS.mdファイルが存在する場合、エージェントの実行時間の中央値が28.

5638 字
読む →