継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

自己疑念と回復を伴うメタ認知的強化学習

従来の強化学習は外部のノイズ除去に注力する一方で、自身の学習プロセスが健全であるかを判断する能力を欠いており、不確実性が蓄積すると訓練終盤に突如として性能が崩壊する致命的な問題を抱えていた。 本研究は、価値予測誤差の安定性(VPES)を指標として自身の学習状態を監視し、不安定な時には学習を抑制しつつ安定後に段階的に信頼を回復させる「メタ認知型強化学習フレームワーク」を提案し、学習の「許容性」を自律制御する仕組みを構築した。 報酬に激しいノイズがある過酷な環境での検証において、提案手法は学習終盤の崩壊率を既存の最新手法と比較して50%削減し、平均リターンを2倍以上に向上させるなど、実世界での運用に耐えうる極めて高い堅牢性と回復力を実証した。

5657 字
読む →

拡散モデルの調整コストを激減させる「DeRaDiff」:サンプリング時の動的な正則化制御

拡散モデルを人間の好みに適合させるアライメント工程において、事前学習モデルからの乖離を抑える正則化強度($\beta$)の選択は、画質と忠実度のバランスを左右する極めて重要な課題ですが、最適な値を見つけるための再学習には膨大な計算コストがかかっていました。

6468 字
読む →

双対予測を活用した最小費用流問題の新アルゴリズム:精度と堅牢性を両立し最大12倍の高速化を実現

本研究は、機械学習による予測を活用して古典的なアルゴリズムを強化する「学習強化型アルゴリズム」の枠組みを、ネットワーク最適化の重要課題である最小費用流問題(MCF)に初めて適用した。具体的には、古典的なエプシロン・リラクゼーション法を基盤とし、二元的な予測値である「双対予測」を組み込むことで、予測精度が高い場合には大幅な計算高速化を実現し、予測が外れた場合でも従来の最悪時間計算量を維持する堅牢な手法を提案している。 理論面では、予測誤差の無限大ノルムに基づいた時間計算量の改善を証明し、実証面では交通ネットワークやチップのエスケープルーティングにおいて、従来のアルゴリズムと比較して平均で最大12.74倍、特定の条件下では21.4倍という劇的な実行時間の短縮を達成した。 さらに、データ駆動型アルゴリズム設計の観点から、予測値を学習するためのサンプル複雑性の理論的限界も明らかにしており、実用的なニューラルネットワークモデルを用いた予測器の構築から理論的な性能保証までを一貫して提供する画期的な成果となっている。

6094 字
読む →

Spark: 長期タスクにおけるエージェント学習のための動的探索フレームワーク

長期的なタスクを実行するAIエージェントの強化学習において、全ステップに一律の計算資源を配分する従来手法の非効率性を解消するため、重要な決定局面でのみ探索を分岐させる新フレームワーク「SPARK」が提案されました。

6463 字
読む →

ストレージ最適化のための翌日市場曲線のパラメトリックおよび生成的予測

AIデータベース:電力市場曲線予測と蓄電池最適化のためのパラメトリック・生成モデルの統合

5856 字
読む →

ProFlow: 近接流ガイダンスによるゼロショット物理整合サンプリング

ProFlowは、少数の観測データから偏微分方程式(PDE)を厳密に満たす物理場を推定するための、新しいゼロショット物理整合サンプリング手法である。既存の生成モデルが物理的制約をソフトなペナルティとしてしか扱えず、再学習なしでは厳密な整合性を維持できないという課題に対し、本手法は近接最適化と線形補間を組み合わせた二段階のガイダンス機構を導入している。ポアソン方程式やバーガース方程式を用いた検証により、従来の拡散モデルやフローベースの手法と比較して、物理的および観測的な整合性と統計的な正確性の両面で優れた性能を示すことが確認された。

6424 字
読む →

将来予測でデータセンターの資源配分を最適化する「予測駆動型DRL」フレームワーク

データセンターにおけるサービスファンクションチェイニング(SFC)の資源配分を最適化するため、深層強化学習(DRL)と深層学習による予測モデルを高度に融合させた「予測駆動型DRL」フレームワークが提案されました。

6917 字
読む →

確率的リプシッツ最適化のための証明に基づく枝刈り

本研究は、評価にノイズが含まれるリプシッツ関数のブラックボックス最適化において、最適解が含まれる可能性のある領域を「アクティブセット」として明示的に管理し、非最適な領域を数学的根拠に基づいて切り捨てる新手法「Certificate-Guided Pruning(CGP)」を提案した。

6175 字
読む →

Rectified Flowのサンプル複雑度は最適レートを達成:拡散モデルを超える効率性の理論的背景

本研究は、Rectified Flow(RF)がターゲット分布を学習する際に必要とするサンプル数(サンプル複雑度)において、情報理論的な下限値である $\tilde{O}(\epsilon^{-2})$ を達成することを理論的に証明しました。

5949 字
読む →

統計的保証付きLLM性能評価の効率化:FAQ手法の提案

大規模言語モデル(LLM)の膨大な評価コストを削減するため、過去の評価データを活用して最適な質問を適応的に選択する新手法「FAQ(Factorized Active Querying)」が提案されました。

6425 字
読む →