Squintは、カメラ画像と自己受容情報から操作方策を学習する視覚SACで、並列シミュレーションと経験再利用を両立させつつ、学習の実時間を従来の視覚オフポリシー法・オンポリシー法より短くすることを狙った手法です。
視覚強化学習は、ロボットにカメラ入力を与えるだけで方策を学ばせられるため、タスクごとの特別な計測や追加の計装に依存しにくい点が魅力です。しかし、画像にもとづく方策学習は一般に学習コストが高く、環境との相互作用回数が増えやすいことに加えて、計算資源や時間の負担が増大しやすいと整理されています。特に、オフポリシー手法はリプレイバッファに経験を蓄えて再利用できる一方で、学習更新の計算が重くなり、学習の実時間が伸びやすいという問題意識が提示されています。逆に、オンポリシー手法は経験再利用がないためサンプル効率は不利になりやすいものの、多数の環境に素直に並列化でき、GPUで加速されたシミュレータでは実時間の短さが強みになりやすいと説明されています。 近年、状態入力中心の制御では、オフポリシーでも実時間を優先して調整することでオンポリシーより速く学習できる可能性が示されてきましたが、画像入力に拡張することは容易ではないとされています。理由として、高次元な画像はリプレイバッファの保存負荷が大きく、畳み込みネットワークによるエンコード計算も増え、学習の動力学自体も難しくなる点が挙げられています。…
提案はSquintという、視覚入力向けのSoft Actor Critic(SAC)ベースのオフポリシー手法です。目標は、従来の視覚オフポリシー手法および視覚オンポリシー手法よりも、学習の実時間を短くすることです。単一の工夫で解決するのではなく、画像入力でボトルネックになりやすい要素を複数箇所から同時に詰める設計としてまとめられています。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related