AI研究 2026-02-04 タグ: cs.LG, cs.AI

オフライン強化学習のための多様体制約付きエネルギーベース遷移モデル（MC-ETM）

オフライン強化学習における分布シフトと価値の過大評価を解決するため、多様体制約付きエネルギーベース遷移モデル（MC-ETM）が提案され、低次元多様体近傍での負例生成によりエネルギー地形を鋭敏化し、分布外への逸脱を正確に検知する手法が確立されました。

論文図解

TL;DR（結論）

オフライン強化学習における分布シフトと価値の過大評価を解決するため、多様体制約付きエネルギーベース遷移モデル（MC-ETM）が提案され、低次元多様体近傍での負例生成によりエネルギー地形を鋭敏化し、分布外への逸脱を正確に検知する手法が確立されました。学習されたエネルギーを信頼性の指標として直接活用し、高エネルギー領域でのロールアウト中断や、アンサンブルされたQ値の分散に基づく悲観的なペナルティ付与を行うことで、不連続な動特性やデータが疎な条件下でも、モデルの予測誤差に起因する学習の不安定化を効果的に抑制します。標準的なベンチマークを用いた検証において、提案手法は多段階のダイナミクス予測の忠実度を大幅に向上させ、既存のモデルベース手法やモデルフリー手法を凌駕する高い制御性能と正規化リターンを達成し、物理的な制約が強い環境における実用的な有効性が証明されました。

なぜこの問題か

オフライン強化学習は、環境との追加の相互作用を行わずに固定されたデータセットのみから学習を行うため、分布シフトという根本的な課題を抱えています。学習が進むにつれて、方策はデータセット内で十分にサポートされていない状態と行動のペアを選択するようになり、その結果として価値推定が制御不能なほど過大評価され、学習の不安定化や性能の崩壊を招くことが一般的です。モデルベースのオフライン強化学習では、遷移モデルを学習して仮想的なロールアウトを行うことでこの問題に対処しようと試みますが、ロールアウトがデータセットの境界に近づくと、わずかな遷移誤差が急速に蓄積し、非現実的な高報酬の軌道へと価値のターゲットを誘導してしまいます。現実世界の環境においてこの脆弱性が増幅される理由は、主に二つの構造的な要因に集約されます。第一に、多くの物理システムはモードの切り替えや接触効果、分岐などの多峰性または不連続な遷移を示すため、平均二乗誤差を用いた従来の回帰型モデルでは、相容れない複数の結果を平均化してしまい、物理的にあり得ない予測を行ってしまう点です。…

核心：何を提案したのか

本研究では、ロバストなオフラインモデルベース強化学習を実現するために、多様体制約付きエネルギーベース遷移モデル（MC-ETM）を提案しています。この手法の核心は、幾何学を考慮した多様体投影拡散（MPD）メカニズムを導入し、条件付きエネルギーベース遷移モデルを訓練することにあります。具体的には、次状態が低次元の多様体上に集中しているという仮定に基づき、オートエンコーダを用いて次状態の潜在的な多様体を学習します。そして、観測された遷移の潜在コードを摂動させ、学習された条件付きエネルギーの下でランジュバン動力学を実行することにより、多様体の近傍で「困難な負例」を生成します。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。