継続更新

方策勾配法によるモデルフリー出力フィードバック安定化

本研究は、システムモデルが未知で一部の出力しか観測できない離散時間線形システムにおいて、方策勾配法を用いてシステムを安定化させる静的出力フィードバック制御器を直接学習する新しいアルゴリズム枠組みを提案しました。

方策勾配法によるモデルフリー出力フィードバック安定化 の図解
論文図解

TL;DR(結論)

本研究は、システムモデルが未知で一部の出力しか観測できない離散時間線形システムにおいて、方策勾配法を用いてシステムを安定化させる静的出力フィードバック制御器を直接学習する新しいアルゴリズム枠組みを提案しました。 不安定なシステムを扱うために、割引因子を導入してシステムを擬似的に安定化させる割引手法と、システムの軌跡データのみから勾配を推定する零次の方策勾配更新を組み合わせることで、出力フィードバック特有の非凸な最適化問題において定常点への収束を理論的に保証しています。 理論解析を通じて、安定化制御器を得るために必要なサンプル複雑性を明示的に特定し、モデル同定を介さずに未知の不安定システムを入出力データのみから安定化できることを数値例によって証明した点が本論文の主要な成果であり、強化学習の適用範囲を部分観測システムへと大きく広げました。

なぜこの問題か

動的システムの安定化は、制御理論における最も基本的かつ重要な課題であり、線形二次レギュレータ(LQR)問題のような、より複雑な最適化タスクや制御タスクを実行するための不可欠な前提条件となります。従来、システムの数理モデルが既知である場合には、リアプノフ方程式や線形行列不等式を用いることで安定化制御器の設計は比較的容易でしたが、現実の多くのアプリケーションではシステムの詳細な物理モデルが未知である場合が多く、データから直接制御器を構成する手法が強く求められています。強化学習の一種である方策勾配法は、モデルを介さずに制御器を学習できるため注目を集めてきましたが、既存研究の多くはシステムの状態すべてが直接観測可能であることを前提とした状態フィードバックに焦点を当てていました。 しかし、実際の制御現場においてシステムの状態すべてを正確に計測することは、センサーのコストや技術的な制約、あるいはシステムの複雑さから極めて困難、あるいは不可能である場合が少なくありません。…

核心:何を提案したのか

本論文の主要な提案は、未知の離散時間線形システムに対して、静的出力フィードバック制御器を学習するためのモデルフリーなアルゴリズム枠組みです。この枠組みの最大の特徴は、不安定な開ループシステムを扱うために「割引手法」を出力フィードバックの設定に拡張して導入した点にあります。具体的には、元のシステムの安定化問題を、適切に選択された割引因子を持つ一連の割引された部分観測システムの学習問題へと変換します。これにより、最初はゼロ制御器のような単純な初期値から開始し、割引因子を段階的に調整していくことで、最終的に元のシステムを安定化させる制御器へと導くことが可能になります。このプロセスは、不安定なシステムを「減衰」させることで、数学的に扱いやすい安定なシステムとして近似することから始まります。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む