継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

MoHETS: 異種混合エキスパートを用いた長期時系列予測

MoHETSは、多変量時系列データの複雑な多スケール構造を捉えるために、構造の異なる専門家ネットワークを組み合わせた「異種混合エキスパート(MoHE)」を導入したエンコーダーのみのTransformerモデルである。

6947 字
読む →

WebArbiter: 原理に基づく推論プロセス報酬モデルによるWebエージェントの進化

Webエージェントが複雑なタスクを遂行する際、最終結果のみを評価する従来手法では、途中の不可逆な誤りや信号の遅延に対応できないという深刻な課題がありました。本研究で提案されたWebArbiterは、行動の妥当性をテキスト生成による「推論」と「原理の導出」を通じて評価する、推論優先型のプロセス報酬モデル(WebPRM)であり、単なる数値スコアではなく論理的な根拠を生成します。このモデルは、強力な教師モデルからの推論蒸留と、正解信号に直接合わせる強化学習の2段階で訓練され、既存のGPT-5などの大規模モデルを大幅に上回る精度を達成したほか、4つの異なるWeb環境を網羅した評価ベンチマーク「WEBPRMBENCH」において、実用的なWeb操作タスクの成功率を最大7.2ポイント向上させるなど、極めて高い実用性と堅牢性を証明しました。

6285 字
読む →

astra-langchain4j:LLMとエージェントプログラミングを組み合わせた経験

ASTRAプログラミング言語に大規模言語モデル(LLM)の機能を統合するための専用ライブラリ「astra-langchain4j」が開発され、Java向けのLangChain4jを基盤として、生成AIの推論や計画能力を自律型エージェントに組み込む新しい手法が提案された。

6137 字
読む →

多様体射影によるフローマッチングの分類器なしガイダンスの改善

フローマッチングにおける分類器なしガイダンス(CFG)を最適化の観点から再解釈し、生成プロセスをターゲット画像集合への距離を最小化するホモトピー最適化として定義することで、サンプリングの精度を向上させる新手法「CFG-MP」を提案した。

6423 字
読む →

Learn-to-Distance:LLM生成テキスト検出のための距離学習

大規模言語モデル(LLM)が生成したテキストを精度高く識別するため、元のテキストとその書き換え版との間の距離を適応的に学習する新手法「Learn-to-Distance」が提案されました。 幾何学的なアプローチによって、人間が書いた文章はLLMの生成空間から外れているため書き換えによる変化が大きくなるという原理を解明し、固定された指標ではなく学習可能な距離関数を用いることで検出精度を大幅に向上させています。 実験ではGPTやClaude、Geminiなどの最新モデルを含む広範な設定で検証が行われ、既存の強力な手法と比較して57.8%から80.6%の相対的な性能改善を達成し、未知のプロンプトや敵対的攻撃に対しても高い堅牢性を示しました。

5946 字
読む →

TraceRouter: 大規模基盤モデルのための経路レベル介入による堅牢な安全性

TraceRouterは、大規模基盤モデルにおける有害情報の伝播を、個別のニューロン単位ではなく複数の層にまたがる「経路(パス)」のレベルで特定し遮断する新しい安全フレームワークである。 従来の防御手法が依存していた局所性仮説の限界を打破し、注意力の分散分析とスパース自己符号化器(SAE)を用いて有害なセマンティクスの回路を精密に特定し、特徴影響スコア(FIS)に基づき因果的な伝播を物理的に断ち切る。 画像生成、言語生成、マルチモーダルの各分野で検証され、モデル本来の生成品質や汎用的な推論能力を維持したまま、敵対的な脱獄攻撃に対しても極めて高い防御成功率と堅牢性を実現することに成功した。

6506 字
読む →

メタ思考から実行まで:汎用的かつ信頼性の高いLLM推論のための認知的に整合した事後学習

本研究は、人間の認知プロセスを模倣し、抽象的な戦略獲得(CoMT)と具体的なタスク適応(CCRL)を分離した新しいLLM事後学習フレームワークを提案しました。 この手法は、中間ステップの確信度に基づく報酬設計により、数学的推論において分布内データで2.19%、分布外データで4.

6561 字
読む →

ProRAG: 検索拡張生成のためのプロセス監視型強化学習

従来の検索拡張生成(RAG)における強化学習は、最終回答の正誤のみを報酬とするため、途中の論理が誤っていても正解に辿り着けば評価される「プロセスの幻覚」という課題を抱えていましたが、本研究が提案するProRAGは、モンテカルロ木探索(MCTS)を用いて構築したプロセス報酬モデル(PRM)を活用し、推論の各ステップに対して詳細なフィードバックを与える「プロセス監視型強化学習」の枠組みを導入しました。 この手法は、ステップ単位のプロセス報酬と最終的な結果報酬を組み合わせる「二重の粒度を持つアドバンテージメカニズム」により、複雑な多段階推論タスクにおいて従来のモデルを凌駕する高い性能、論理的正確性、および推論効率を実現しており、モデルは単に答えを当てるだけでなく、正しい思考プロセスそのものを内面化することが可能になります。 5つのマルチホップ推論ベンチマークを用いた広範な実験の結果、ProRAGは結果ベースの強化学習や既存のプロセス認識手法よりも優れた性能を示し、特に長い推論過程を必要とする困難なタスクにおいて、きめ細やかなプロセス監視が疎な結果報酬よりも効果的な最適化信号を提供することを実証しました。

6431 字
読む →

JADE: 動的なAgentic RAGにおける戦略と実行のギャップを埋める

従来の動的な検索拡張生成(RAG)システムでは、高度な計画を立案するプランナーと、実際のタスクを遂行する実行器が分離されていたため、計画が実行器の能力を超えたり、実行器が計画の意図を汲み取れなかったりする「戦略と実行のミスマッチ」が大きな課題となっていた。

6002 字
読む →

マルチエージェント強化学習によるChain-of-Thoughtの自己圧縮

大規模推論モデル(LRM)における冗長な思考プロセスが引き起こす推論コストの増大と、従来の長さペナルティ手法が抱える「簡潔さと正確性のトレードオフ」を解決するため、マルチエージェント強化学習(MARL)を用いた自己圧縮フレームワーク「SCMA」が提案されました。

6194 字
読む →