未知の線形動的システムにおいて、システムモデルが不明かつ全状態が観測できない状況下での安定化問題に取り組みます。従来の強化学習手法の多くが全状態フィードバックを前提とする中、本研究は出力フィードバックを用いたゼロ次ポリシー勾配法を提案します。このアルゴリズムは定常点への収束を通じてシステムを安定化させ、そのサンプル複雑性も明らかにしています。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related