1. 再帰型スパイキングニューラルネットワーク(RSNN)の強化学習において、個体群ベースの勾配推定に伴うノイズと不安定さを解消するため、推定された信号エネルギーに基づいて更新幅(KLダイバージェンス)を動的に調整する「信号適応型信頼領域法(SATR)」を開発した。 2.
再帰型スパイキングニューラルネットワーク(RSNN)は、脳の動作を模したイベント駆動型のダイナミクスを持つため、ニューロモーフィックハードウェア上で実行する際に極めて高いエネルギー効率と低遅延を実現できる可能性を秘めている。しかし、高次元の連続制御や長期的な時間枠を必要とする強化学習タスクにおいて、RSNNを効果的に訓練することは依然として大きな課題である。その最大の要因は、スパイクの発生という現象が本質的に微分不可能であるため、標準的な誤差逆伝播法を直接適用できない点にある。サロゲート勾配を用いた時間を通じた誤差逆伝播法(BPTT)が一般的に使用されるが、これはメモリコストが高く、長い時間ステップの展開において勾配の消失や爆発を招きやすく、複雑な制御タスクに必要な長期的な時間的クレジット割り当てを弱めてしまう。 この問題を回避するために、個体群ベースの勾配不要最適化手法、例えば進化戦略(ES)や「進化する接続性(EC)」などが注目されている。これらの手法は、ポリシーのパラメータ分布からサンプリングを行うことで、微分可能性の制約を受けずに最適化を進めることができる。…
本研究の主要な貢献は、個体群ベースの強化学習における分布更新を安定化させるための「信号適応型信頼領域(Signal-Adaptive Trust Regions: SATR)」という新しい更新規則の提案である。SATRの核心は、連続するサンプリング分布間のKLダイバージェンスを、推定された「信号エネルギー」によって正規化して制限するというアイデアにある。ここで信号エネルギーとは、個体群から得られた勾配推定値の二乗ノルムとして定義される。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related