継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

メタ思考から実行まで:汎用的かつ信頼性の高いLLM推論のための認知的に整合した事後学習

本研究は、人間の認知プロセスを模倣し、抽象的な戦略獲得(CoMT)と具体的なタスク適応(CCRL)を分離した新しいLLM事後学習フレームワークを提案しました。 この手法は、中間ステップの確信度に基づく報酬設計により、数学的推論において分布内データで2.19%、分布外データで4.

6561 字
読む →

ProRAG: 検索拡張生成のためのプロセス監視型強化学習

従来の検索拡張生成(RAG)における強化学習は、最終回答の正誤のみを報酬とするため、途中の論理が誤っていても正解に辿り着けば評価される「プロセスの幻覚」という課題を抱えていましたが、本研究が提案するProRAGは、モンテカルロ木探索(MCTS)を用いて構築したプロセス報酬モデル(PRM)を活用し、推論の各ステップに対して詳細なフィードバックを与える「プロセス監視型強化学習」の枠組みを導入しました。 この手法は、ステップ単位のプロセス報酬と最終的な結果報酬を組み合わせる「二重の粒度を持つアドバンテージメカニズム」により、複雑な多段階推論タスクにおいて従来のモデルを凌駕する高い性能、論理的正確性、および推論効率を実現しており、モデルは単に答えを当てるだけでなく、正しい思考プロセスそのものを内面化することが可能になります。 5つのマルチホップ推論ベンチマークを用いた広範な実験の結果、ProRAGは結果ベースの強化学習や既存のプロセス認識手法よりも優れた性能を示し、特に長い推論過程を必要とする困難なタスクにおいて、きめ細やかなプロセス監視が疎な結果報酬よりも効果的な最適化信号を提供することを実証しました。

6431 字
読む →

JADE: 動的なAgentic RAGにおける戦略と実行のギャップを埋める

従来の動的な検索拡張生成(RAG)システムでは、高度な計画を立案するプランナーと、実際のタスクを遂行する実行器が分離されていたため、計画が実行器の能力を超えたり、実行器が計画の意図を汲み取れなかったりする「戦略と実行のミスマッチ」が大きな課題となっていた。

6002 字
読む →

マルチエージェント強化学習によるChain-of-Thoughtの自己圧縮

大規模推論モデル(LRM)における冗長な思考プロセスが引き起こす推論コストの増大と、従来の長さペナルティ手法が抱える「簡潔さと正確性のトレードオフ」を解決するため、マルチエージェント強化学習(MARL)を用いた自己圧縮フレームワーク「SCMA」が提案されました。

6194 字
読む →

産業化された欺瞞:LLMによる誤情報がデジタルエコシステムに与える付随的影響

生成AIの進化により、誤情報の生成が「産業化された欺瞞」へと変貌し、デジタルエコシステムの信頼性を根本から揺るがす深刻な事態となっている。本研究では、AI生成ニュースに対する人間の認識を評価する「JudgeGPT」と、研究用の刺激生成エンジンである「RogueGPT」を提案し、実験的なパイプラインを構築した。

5879 字
読む →

OVD: 教師モデルの言語スコアを活用した効率的なオンポリシー蒸留手法

従来の知識蒸留は、教師モデルの全語彙にわたる確率分布を生徒モデルに一致させる必要があり、膨大なメモリ消費と生徒の探索能力の制限が大きな課題となっていた。本研究が提案する「OVD(オンポリシー言語蒸留)」は、詳細なロジット情報の代わりに教師モデルが出力する0から9の離散的な言語スコアを用いた軌跡マッチングを行うことで、メモリ消費を劇的に削減しつつ、生徒モデルが自身の分布に基づいた自由な探索を行うことを可能にする。Web質問応答や数学的推論タスクにおける実験の結果、OVDは既存手法を大幅に上回る性能を示し、Web質問応答で最大12.9%、数学ベンチマークで最大25.7%の正解率向上を達成するとともに、メモリ効率を数万倍に改善することで、これまで困難だった長大な推論チェーンの学習を現実的なものとした。

5822 字
読む →

Token-Guard: 自己チェックによるトークンレベルのハルシネーション制御

大規模言語モデル(LLM)が事実に基づかない情報を生成するハルシネーション問題を解決するため、生成の各ステップでトークン単位の検証を行う新しいデコーディング手法「Token-Guard」が提案されました。

5944 字
読む →

「より良い」プロンプトが逆効果になる時:LLMアプリのための評価主導型反復プロセス

LLMの出力は非決定論的でモデル更新に敏感なため、従来の決定論的なテスト手法では不十分であり、「定義・テスト・診断・修正」の4フェーズからなる評価主導型の反復ワークフローを導入することで、場当たり的な調整から再現可能なエンジニアリングプロセスへの転換を提案する。

6237 字
読む →

因果的自己回帰拡散言語モデル

CARD(Causal Autoregressive Diffusion)は、自己回帰モデルの安定した訓練効率と拡散モデルの高速な並列推論を、因果的アテンションマスクという単一の枠組みで統合した革新的な言語モデルである。

6739 字
読む →

指示に従うこととタスク解決能力の間の逆説的な干渉について

大規模言語モデル(LLM)において、ユーザーの指示や制約を遵守しようとする能力(指示追従)が、モデルが本来持っているはずのタスク解決能力をかえって阻害してしまう「逆説的な干渉」という現象が本研究によって明らかになりました。

6193 字
読む →