継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

メタ思考から実行まで:汎用的かつ信頼性の高いLLM推論のための認知的に整合した事後学習

本研究は、人間の認知プロセスを模倣し、抽象的な戦略獲得(CoMT)と具体的なタスク適応(CCRL)を分離した新しいLLM事後学習フレームワークを提案しました。 この手法は、中間ステップの確信度に基づく報酬設計により、数学的推論において分布内データで2.19%、分布外データで4.

6561 字
読む →

ProRAG: 検索拡張生成のためのプロセス監視型強化学習

従来の検索拡張生成(RAG)における強化学習は、最終回答の正誤のみを報酬とするため、途中の論理が誤っていても正解に辿り着けば評価される「プロセスの幻覚」という課題を抱えていましたが、本研究が提案するProRAGは、モンテカルロ木探索(MCTS)を用いて構築したプロセス報酬モデル(PRM)を活用し、推論の各ステップに対して詳細なフィードバックを与える「プロセス監視型強化学習」の枠組みを導入しました。 この手法は、ステップ単位のプロセス報酬と最終的な結果報酬を組み合わせる「二重の粒度を持つアドバンテージメカニズム」により、複雑な多段階推論タスクにおいて従来のモデルを凌駕する高い性能、論理的正確性、および推論効率を実現しており、モデルは単に答えを当てるだけでなく、正しい思考プロセスそのものを内面化することが可能になります。 5つのマルチホップ推論ベンチマークを用いた広範な実験の結果、ProRAGは結果ベースの強化学習や既存のプロセス認識手法よりも優れた性能を示し、特に長い推論過程を必要とする困難なタスクにおいて、きめ細やかなプロセス監視が疎な結果報酬よりも効果的な最適化信号を提供することを実証しました。

6431 字
読む →

JADE: 動的なAgentic RAGにおける戦略と実行のギャップを埋める

従来の動的な検索拡張生成(RAG)システムでは、高度な計画を立案するプランナーと、実際のタスクを遂行する実行器が分離されていたため、計画が実行器の能力を超えたり、実行器が計画の意図を汲み取れなかったりする「戦略と実行のミスマッチ」が大きな課題となっていた。

6002 字
読む →

マルチエージェント強化学習によるChain-of-Thoughtの自己圧縮

大規模推論モデル(LRM)における冗長な思考プロセスが引き起こす推論コストの増大と、従来の長さペナルティ手法が抱える「簡潔さと正確性のトレードオフ」を解決するため、マルチエージェント強化学習(MARL)を用いた自己圧縮フレームワーク「SCMA」が提案されました。

6194 字
読む →

タスクシフト下におけるベルマンアライメントを用いた楽観的転移学習

オンライン強化学習において、関連するソースタスクの経験をターゲットタスクに転移させることは、学習を加速させるための自然なアプローチである。しかし、従来のタスク類似性の定義は報酬や遷移のレベルに留まっており、オンライン学習アルゴリズムが実際に操作するベルマン回帰ターゲットとの間に乖離があるため、単純なデータ統合では系統的なバイアスが生じ、探索の理論的保証が損なわれるという構造的な課題があった。本研究では、この問題を解決するために、演算子レベルでベルマンアライメントを行う「再重み付けターゲット(RWT)」を提案し、タスク間の不一致を継続価値に依存しない固定の一段階補正へと変換する手法を確立した。このアライメントに基づく二段階のQ学習フレームワークは、RKHS関数近似の設定において、リグレット界がターゲットタスク全体の複雑さではなくタスク間のシフトの複雑さに依存することを理論的に証明し、シミュレーションおよびニューラルネットワークを用いた実験の両方で、単一タスク学習やナイーブなデータ統合を上回る一貫した性能向上を実証している。

6063 字
読む →

LoRIF: 大規模モデルの学習データ属性特定を効率化する低ランク影響関数

学習データ属性特定(TDA)は、モデルの予測に影響を与えた訓練データを特定する重要な技術ですが、大規模モデルでは膨大な勾配データの保存に伴うI/O負荷と、ヘッセ行列近似に必要なメモリ消費が実用化の大きな障壁となっていました。

5717 字
読む →

AgenticSimLaw:説明可能な意思決定のための法廷シミュレーション型マルチエージェント

AgenticSimLawは、検察官、弁護人、裁判官という明確な役割を持つエージェントが法廷形式で議論を行うマルチエージェント・フレームワークであり、ブラックボックス化しがちなAIの意思決定プロセスを透明化し、監査可能なものにすることを目指している。

5733 字
読む →

検索注入型推論サンドボックス:検索能力と推論能力を分離するためのベンチマーク

DeR2は、大規模言語モデルが未知の科学的情報に対して推論を行う能力を、検索プロセスから切り離して評価するための新しいベンチマークである。従来の評価手法では検索の失敗か推論の失敗かを判別できなかったが、本手法は2023年から2025年の最新の理論的論文に基づき、情報のアクセスレベルを4段階に分けることでエラーの原因を詳細に特定する。 評価設定として、命令のみ、概念のみ、関連文書のみ、全文書セットの4つのレジームを導入し、モデルがどの段階で性能を低下させているかを「検索損失」と「推論損失」として数値化する。これにより、モデルが学習済みの知識で解いているのか、あるいは提供された証拠を適切に処理して解いているのかを厳密に検証するプロトコルを確立している。 検証の結果、GPT-5.1やGemini-3-Proといった最新モデルでも、文書が与えられると推論モードへの切り替えに失敗する「モード切替の脆弱性」や、概念を正しく認識しても適用できない「構造的な概念の誤用」が明らかになった。このサンドボックスは、検索能力と推論能力の統合における現在の限界を可視化し、次世代AIの開発に向けた重要な指針を提供する。

7894 字
読む →

エントロピーに基づく拡散モデルの次元フリー収束と損失適応型スケジュール

拡散モデルのサンプリング誤差がデータの次元数に比例して増大するという従来の理論的制約を打破し、情報の複雑さを示す「シャノン・エントロピー」を用いることで、次元に依存しない新しい収束境界を導出しました。

6374 字
読む →

高速かつ信頼性の高い形状最適化のための不確実性を考慮したデータに基づく手法

航空機設計におけるデータ駆動型最適化(DBO)は、学習済みモデルを用いて高速な評価を可能にするが、学習データの範囲外の形状に対してモデルが「過信」による楽観的な予測誤差を犯し、信頼性の低い設計結果を導くという重大な課題があった。

6378 字
読む →