AI研究 2026-01-29 タグ: cs.AI

POMDPにおける反復CVaR価値関数を用いたオンラインリスク回避計画

本研究は、部分観測マルコフ決定過程（POMDP）において、動的リスク尺度である反復条件付きバリューアットリスク（ICVaR）を価値関数として採用した、世界初のオンラインリスク回避計画フレームワークを提案しています。

論文図解

TL;DR（結論）

本研究は、部分観測マルコフ決定過程（POMDP）において、動的リスク尺度である反復条件付きバリューアットリスク（ICVaR）を価値関数として採用した、世界初のオンラインリスク回避計画フレームワークを提案しています。具体的には、行動空間のサイズに依存しない有限時間性能保証を備えたICVaR方策評価法を開発し、これを基にSparse SamplingやPOMCPOW、PFT-DPWといった主要なオンライン計画アルゴリズムをリスク回避型へと拡張することに成功しました。ベンチマークドメインを用いた実験では、提案されたICVaRプランナーが従来のリスク中立的な手法と比較してテイルリスクを効果的に低減させ、不確実性の高い環境下での安全な意思決定を理論的保証とともに実現できることを実証しています。これにより、稀に発生する重大な損失を考慮した自律エージェントの運用が可能になります。

なぜこの問題か

自律エージェントは、ロボット工学、ヘルスケア、教育、製造、金融サービスなど、現代社会の多様な分野において極めて重要な構成要素として台頭しています。これらのエージェントを実世界の環境に配備する際には、信頼性と倫理的な運用を確保するために、厳格な安全プロトコルの遵守が不可欠な課題となります。特に、エージェントが自身の周囲の状況について不完全な情報しか得られない「部分観測性」は、意思決定の複雑さを著しく増大させる要因です。このような不確実な状況下で安全を確保するためには、単に平均的なパフォーマンスを向上させるだけでなく、稀に発生する重大なハザードを軽減するためのリスク回避的な意思決定フレームワークが必要となります。従来のPOMDP計画の多くは、期待リターンの最大化を目的としていますが、これは分布の裾（テイル）に存在する極端な悪影響を無視する傾向があります。期待値ベースの意思決定では、たとえ壊滅的な損失が発生する可能性があっても、それが低確率であれば無視されてしまうため、安全性が重視される実環境では不十分です。…

核心：何を提案したのか

本論文の核心的な貢献は、動的リスク尺度である反復CVaR（ICVaR）を価値関数として定義し、部分観測環境下でのオンライン計画を可能にする包括的なフレームワークを構築したことです。ICVaRは、各ステップで再帰的にCVaRを適用する動的リスク尺度であり、標準的な期待値ベースの価値関数と同様の再帰構造を持ちながら、リスク回避性を組み込むことができます。まず、特定の与えられた方策に対してICVaR価値関数を推定する「ICVaR方策評価アルゴリズム」を開発しました。このアルゴリズムは、行動空間の大きさに左右されない有限時間性能保証を持っており、理論的な信頼性が担保されています。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。