強化学習を用いた、実行可能性が未知のパラメータ頑健回避問題の解決
安全集合を最大化して「ずっと安全」を保証したい目的と、強化学習がユーザ指定の分布に対する期待値を最適化しやすい目的のずれにより、確率は低いが本来は安全にできる状態で方策が破綻しやすくなります。 / そこで、初期状態・ダイナミクス・安全仕様を決めるパラメータ集合のうち「安全な方策が存在する部分集合」を探索で広げながら、その部分集合上で最悪条件に耐える回避方策を学習するFGEを提案しています。 / MuJoCo上の高次元回避問題の実験では、難しい初期条件において既存最良手法よりカバレッジが50%を超えて増え、最悪条件がそもそも不可能な設定でも学習が停滞しにくい方向性を示しています。