継続更新

フルランクの行動と状態観測可能性の枠組みを超えたPOMDP学習に向けて

本研究は、隠れ状態を持つシステムの動態を学習するため、予測状態表現(PSR)とテンソル分解の手法を統合し、一部の行動がフルランクであれば離散的な部分観測マルコフ決定過程(POMDP)のパラメータを推定できる新しい枠組みを提案している。

フルランクの行動と状態観測可能性の枠組みを超えたPOMDP学習に向けて の図解
論文図解

TL;DR(結論)

本研究は、隠れ状態を持つシステムの動態を学習するため、予測状態表現(PSR)とテンソル分解の手法を統合し、一部の行動がフルランクであれば離散的な部分観測マルコフ決定過程(POMDP)のパラメータを推定できる新しい枠組みを提案している。 従来のテンソル手法が全ての行動にフルランクの遷移行列を要求し、状態ごとに固有の観測分布を前提としていたのに対し、本手法は観測分布が共通する状態をグループ化した「観測可能性パーティション」の単位で遷移と観測の尤度を正確に復元することを可能にした。 学習された明示的な遷移・観測モデルは、ブラックボックスな従来のPSRとは異なり、学習後に任意の報酬を設定してエージェントの行動を制御できる柔軟性を持ち、ノイズの多い環境下でも標準的なサンプリングベースのソルバーを用いて高いタスク達成能力を発揮する。

なぜこの問題か

自律的なエージェントが未知の環境で活動する際、家具の隠れたロック機構のように、直接観察できない隠れた情報を推論し学習する能力は極めて重要である。 この問題は、離散的な部分観測マルコフ決定過程(POMDP)のパラメータ学習として定式化されるが、エージェントは当初、状態空間のサイズや遷移モデル、観測モデルに関する知識を一切持っていない。 既存のスペクトル手法である予測状態表現(PSR)は、データの特異値分解を通じて隠れ状態の数を直接推定できる優れた性質を持つが、得られるモデルは相似変換を受けた「ブラックボックス」な状態空間に留まる。 そのため、遷移や観測の直接的な尤度を算出することができず、学習後に新しいタスクや報酬関数を適用してモデルを操作することが困難であるという課題があった。 一方で、テンソル分解を用いる既存の手法は尤度を推定できるものの、全ての行動において遷移行列がフルランクであることや、各状態が固有の観測分布を持つといった非常に厳しい仮定を必要とする。…

核心:何を提案したのか

本研究の核心は、PSRが学習する「相似変換を受けた抽象的な状態空間」から、元の物理的な意味を持つ状態空間への変換行列(相似変換行列)を推定する新しいアルゴリズムの開発にある。 この手法は、PSRのランク分解能力とテンソル分解のパラメータ復元能力を統合することで、フルランクではない行動や状態の非識別性が存在する環境でもPOMDPを学習することを可能にした。 具体的には、全ての行動がフルランクである必要はなく、少なくとも一部の行動がフルランクの遷移行列を持つという条件の下で、状態の「観測可能性パーティション」を特定するプロセスを導入している。 観測可能性パーティションとは、利用可能なフルランクの行動に対して同一の観測分布を生成する状態の集合であり、本手法はこのパーティション間の遷移確率と観測の尤度を数学的に厳密に復元する。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む