AI研究 2026-02-18 タグ: cs.LG, cs.RO, math.OC

強化学習を用いた、実行可能性が未知のパラメータ頑健回避問題の解決

安全集合を最大化して「ずっと安全」を保証したい目的と、強化学習がユーザ指定の分布に対する期待値を最適化しやすい目的のずれにより、確率は低いが本来は安全にできる状態で方策が破綻しやすくなります。 / そこで、初期状態・ダイナミクス・安全仕様を決めるパラメータ集合のうち「安全な方策が存在する部分集合」を探索で広げながら、その部分集合上で最悪条件に耐える回避方策を学習するFGEを提案しています。 / MuJoCo上の高次元回避問題の実験では、難しい初期条件において既存最良手法よりカバレッジが50%を超えて増え、最悪条件がそもそも不可能な設定でも学習が停滞しにくい方向性を示しています。

論文図解

TL;DR（結論）

安全集合を最大化して「ずっと安全」を保証したい目的と、強化学習がユーザ指定の分布に対する期待値を最適化しやすい目的のずれにより、確率は低いが本来は安全にできる状態で方策が破綻しやすくなります。
そこで、初期状態・ダイナミクス・安全仕様を決めるパラメータ集合のうち「安全な方策が存在する部分集合」を探索で広げながら、その部分集合上で最悪条件に耐える回避方策を学習するFGEを提案しています。
MuJoCo上の高次元回避問題の実験では、難しい初期条件において既存最良手法よりカバレッジが50%を超えて増え、最悪条件がそもそも不可能な設定でも学習が停滞しにくい方向性を示しています。

なぜこの問題か

最適安全制御の到達可能性解析が目指すのは、あるシステムが安全制約を「将来にわたって常に」満たし続けられる初期条件の集合を、できるだけ大きくすることです。これに対して深層強化学習は、典型的にはユーザが決めた初期条件の分布の下で、期待コストや期待リターンを最小化・最大化する形で学習が進みます。この違いにより、分布上ではあまり出現しないが運用上は重要な状態が、学習の圧力から外れてしまうことがあります。その結果、頻繁に出る状態ではうまく振る舞う一方で、低確率領域で急激に失敗する方策が得られ得ます。このずれを埋める自然な考え方として、初期状態だけでなくダイナミクスや安全集合まで含めたパラメータ集合に対して、集合内の最悪条件を想定する頑健最適化として問題を立て直す方向が示されています。しかし頑健最適化は、そもそも指定したパラメータ集合に対して「安全にできる」解が存在するかどうか（実行可能性）が事前には分からない点が難所になります。もし集合の中に、どんな方策でも回避できない条件が混ざっていると、最悪条件の評価がそれらに支配され、全ての方策が同程度に悪いという退化が起き得ます。…

核心：何を提案したのか

本論文の提案は、「未知の実行可能性を伴うパラメータ頑健回避問題」という目標設定を導入し、その解法としてFeasibility-Guided Exploration（FGE）を提示することです。ここでのパラメータは、単なる初期状態の違いに限らず、ダイナミクスや安全仕様（どこが危険か）まで変え得るものとして扱われています。重要なのは、パラメータ集合全域で最悪条件に耐える安全を最初から要求しない点です。代わりに、パラメータ集合の中から「安全な方策が存在する」実行可能な部分集合を同定し、その同定された部分集合の上で回避条件を満たす方策を学習します。つまり、（大きな実行可能領域を見つけること）と（その領域に対して安全な方策を得ること）を同時に追います。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。