AI研究 2026-02-01 タグ: cs.LG, cs.AI

再帰型スパイキングニューラルネットワークの勾配不要最適化に向けた信号適応型信頼領域法

1. 再帰型スパイキングニューラルネットワーク（RSNN）の強化学習において、個体群ベースの勾配推定に伴うノイズと不安定さを解消するため、推定された信号エネルギーに基づいて更新幅（KLダイバージェンス）を動的に調整する「信号適応型信頼領域法（SATR）」を開発した。 2.

論文図解

TL;DR（結論）

再帰型スパイキングニューラルネットワーク（RSNN）の強化学習において、個体群ベースの勾配推定に伴うノイズと不安定さを解消するため、推定された信号エネルギーに基づいて更新幅（KLダイバージェンス）を動的に調整する「信号適応型信頼領域法（SATR）」を開発した。
ベルヌーイ分布を用いた接続性の最適化にSATRを適用することで、少数の個体群サイズでも学習の崩壊を防ぎ、高次元の連続制御タスクにおいてPPO-LSTMなどの強力なベースラインに匹敵する報酬を達成しつつ、バイナリ特性を活かしたビットセット実装により計算効率を劇的に向上させた。
本手法は、スパイクの非微分性や長期的な時間依存性の課題を回避し、Humanoidタスクにおいて従来の浮動小数点演算ベースの手法よりも最大8.9倍高速なトレーニングを実現しており、エネルギー効率に優れたRSNNの探索を実用的な時間枠で可能にする新しい最適化フレームワークを提示している。

なぜこの問題か

再帰型スパイキングニューラルネットワーク（RSNN）は、脳の動作を模したイベント駆動型のダイナミクスを持つため、ニューロモーフィックハードウェア上で実行する際に極めて高いエネルギー効率と低遅延を実現できる可能性を秘めている。しかし、高次元の連続制御や長期的な時間枠を必要とする強化学習タスクにおいて、RSNNを効果的に訓練することは依然として大きな課題である。その最大の要因は、スパイクの発生という現象が本質的に微分不可能であるため、標準的な誤差逆伝播法を直接適用できない点にある。サロゲート勾配を用いた時間を通じた誤差逆伝播法（BPTT）が一般的に使用されるが、これはメモリコストが高く、長い時間ステップの展開において勾配の消失や爆発を招きやすく、複雑な制御タスクに必要な長期的な時間的クレジット割り当てを弱めてしまう。この問題を回避するために、個体群ベースの勾配不要最適化手法、例えば進化戦略（ES）や「進化する接続性（EC）」などが注目されている。これらの手法は、ポリシーのパラメータ分布からサンプリングを行うことで、微分可能性の制約を受けずに最適化を進めることができる。…

核心：何を提案したのか

本研究の主要な貢献は、個体群ベースの強化学習における分布更新を安定化させるための「信号適応型信頼領域（Signal-Adaptive Trust Regions: SATR）」という新しい更新規則の提案である。SATRの核心は、連続するサンプリング分布間のKLダイバージェンスを、推定された「信号エネルギー」によって正規化して制限するというアイデアにある。ここで信号エネルギーとは、個体群から得られた勾配推定値の二乗ノルムとして定義される。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。