AI研究 | Cog AI Archive

AI研究 2026-02-01

IDE-Bench: 実世界のソフトウェア開発タスクにおけるIDEエージェントとしてのLLM評価

IDE-Benchは、CursorやWindsurfのようなAIネイティブIDEの動作を模した、LLMを「IDEエージェント」として評価するための新しいベンチマークフレームワークである。学習データへの汚染を防ぐために作成された未公開の8つのリポジトリ（C/C++、Java、MERNスタック等）と80のタスクを用い、コード検索や編集、テスト実行といった17種類のツールを駆使した多段階の課題解決能力を厳密に測定する。評価の結果、GPT 5.2が95%の成功率（pass@5）で首位となったが、多くのモデルで「アルゴリズムは正しいが形式や端的なケースで失敗する」という課題や、言語・フレームワークごとの得意不得意が顕著に現れた。

6401 字

読む →

AI研究 2026-02-01

NeuraLSP: 共役勾配法のための効率的かつ厳密なニューラル左特異部分空間プリコンディショナ

科学技術計算における偏微分方程式の数値解法を加速するため、従来の代数マルチグリッド法が抱えるランク膨張や収束率低下という課題を解決する新しいニューラルプリコンディショナ「NeuraLSP」が提案されました。

6436 字

読む →

AI研究 2026-02-01

クロスドメイン画像分類のための因果駆動型特徴量評価

従来のドメイン汎化手法が依存していた「ドメイン間で不変な特徴は信頼できる」という仮定に対し、不変であっても予測に因果的な寄与をしない「偽の相関」が含まれる問題を指摘し、統計的な安定性ではなく因果的な有効性を評価の主軸に据える必要性を提唱しました。

5862 字

読む →

AI研究 2026-02-01

セミカスケード型全二重対話システムのためのユニットベースのエージェント

本研究では、複雑な音声対話を「対話ユニット」という最小単位に分解し、マルチモーダル大規模言語モデル（MLLM）が「継続」か「切り替え」かを判断することで、人間のように自然な同時双方向（全二重）対話を実現する新しいフレームワークを提案しました。

6380 字

読む →

AI研究 2026-02-01

MALLOC：大規模シーケンシャル推薦のためのメモリを考慮した長尺系列圧縮のベンチマーク

大規模推薦システムにおいて、ユーザーの長い行動履歴を処理する際の計算コストとメモリ消費の爆発的な増加（メモリ・レイテンシのジレンマ）を解決するため、メモリ効率を重視した長系列圧縮技術の包括的なベンチマークである「MALLOC」が提案されました。

6492 字

読む →

AI研究 2026-02-01

統計的保証を伴うLLM性能評価の効率化

大規模言語モデル（LLM）の評価コストが急増する中、過去の評価データを活用して少ない質問数で高精度な性能推定を行う新手法「Factorized Active Querying (FAQ)」が開発されました。

5744 字

読む →

AI研究 2026-02-01

水素貯蔵に応用される金属水素化物設計のための生成機械学習モデル

カーボンニュートラル実現に不可欠な水素貯蔵技術において、従来の実験や計算手法の限界を打破するため、因果探索アルゴリズム（FCI）と軽量な変分オートエンコーダ（VAE）を組み合わせた新しい材料設計フレームワークを開発しました。

6288 字

読む →

AI研究 2026-02-01

MobileBench-OL：実環境におけるモバイルGUIエージェント評価のための包括的な中国語ベンチマーク

MobileBench-OLは、80個の中国語アプリから抽出された1080個のタスクで構成される、実環境におけるモバイルGUIエージェント評価のための包括的なオンラインベンチマークである。従来のベンチマークが単純な指示への追従に偏っていたのに対し、本手法は複雑な推論や自律的な探索能力、そして実環境特有のランダムなノイズへの対応力を多角的に測定する。本ベンチマークは、20ステップ以上の長期タスクや隠れた機能の探索、ポップアップやネットワーク遅延といった4種類のノイズを含む5つのサブセットを提供し、エージェントの堅牢性を厳格に評価する。また、デバイスの状態を初期化するリセット機構を備えた自動評価フレームワークを導入することで、実機を用いた安定かつ再現可能な検証プロセスを確立している。 12種類の主要なGUIエージェントを用いた実験の結果、現在のモデルは実世界の複雑な要求に対して依然として大きな改善の余地があることが明らかになり、人間による評価でも本指標の信頼性が確認された。このデータセットは、学術的な評価と実世界でのデプロイメントの間に存在するギャップを埋め、次世代のモバイルエージェント開発を促進する基盤となる。

6729 字

読む →

AI研究 2026-02-01

プロンプトベースの継続学習において、パラメータ隔離はより優れているのか？

従来のプロンプトベース継続学習はタスクごとに独立したプロンプトを割り当てる手法が主流であったが、本研究では知識共有とパラメータ効率を向上させるために、グローバルなプロンプトプールを共有し、入力に応じて動的にプロンプトを選択するフレームワーク「Hash」を提案している。

5893 字

読む →

AI研究 2026-02-01

概念成分分析：LLMにおける概念抽出のための原理的なアプローチ

大規模言語モデル（LLM）の内部表現が、入力文脈における潜在的な概念の対数事後確率の線形混合として近似できることを理論的に証明し、この関係に基づき概念を抽出する「概念成分分析（ConCA）」を提案しました。

5914 字

読む →

生成AI研究を、要点から追う。

最新の記事

IDE-Bench: 実世界のソフトウェア開発タスクにおけるIDEエージェントとしてのLLM評価

NeuraLSP: 共役勾配法のための効率的かつ厳密なニューラル左特異部分空間プリコンディショナ

クロスドメイン画像分類のための因果駆動型特徴量評価

セミカスケード型全二重対話システムのためのユニットベースのエージェント

MALLOC：大規模シーケンシャル推薦のためのメモリを考慮した長尺系列圧縮のベンチマーク

統計的保証を伴うLLM性能評価の効率化

水素貯蔵に応用される金属水素化物設計のための生成機械学習モデル

MobileBench-OL：実環境におけるモバイルGUIエージェント評価のための包括的な中国語ベンチマーク

プロンプトベースの継続学習において、パラメータ隔離はより優れているのか？

概念成分分析：LLMにおける概念抽出のための原理的なアプローチ