部分観測の協調タスクでは、同じローカル観測でも整合するグローバル状態が複数あり得るため、最もありそうな状態を1つに決め打つ推定は不確実性を潰してモード崩壊を起こしやすく、意思決定の不安定さにつながります。
マルチエージェント強化学習では、各エージェントが環境の一部しか観測できない部分観測が、協調と意思決定の大きな障害になります。本文抜粋では、この状況が分散型部分観測マルコフ決定過程の枠組みで捉えられ、真のグローバル状態が分からないまま行動しなければならない点が強調されています。特に難しいのは、ある時刻のローカル観測(あるいは観測履歴)が、互いに大きく異なる複数のグローバル状態と同時に整合してしまうことです。つまり「観測から状態への対応」が一対一ではなく一対多になり、状態推定そのものが本質的に曖昧になります。 この曖昧さに対して、既存研究では信念状態の推定や、エージェント間通信による情報共有が用いられてきました。ただし本文抜粋では、信念ベースの方法は過去経験への依存が強く、複雑な系では推定誤差が時間とともに蓄積して十分な情報になりにくい点が指摘されています。通信ベースの方法は受容野を広げられる一方で、通信コストやプロトコル設計の複雑さが課題になり得ると述べられています。…
提案は、Global State Diffusion Algorithm(GlobeDiff)という、ローカル観測(あるいはローカル情報をまとめた補助観測)からグローバル状態を生成的に推論する枠組みです。Abstractと本文抜粋の中心主張は、部分観測が生む一対多の曖昧さは、識別的に単一の推定値を出すよりも、条件付き生成モデルとして「あり得る状態の分布」を学習する方が筋がよいという点です。GlobeDiffでは、グローバル状態推定を多峰性を許す拡散過程として定式化し、ノイズから段階的に状態を復元する反復的な手続きで、高忠実度の状態仮説を得ることを狙っています。 ただし、単純に (p(s\mid x)) を学習しようとすると、一対多対応のために平均化が起きて曖昧な推定になりやすいと本文抜粋で述べられています。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related