要約
部分的に観察可能なマルコフ決定プロセス (POMDP) の強化学習における最近の進歩は、勾配降下最適化を実行するために生物学的に信じられない時間逆伝播アルゴリズム (BPTT) に依存しています。
この論文では、オンライン方式でリカレント ニューラル ネットワークのパラメーターの勾配を計算するためのリアルタイムリカレント学習 (RTRL) の生物学的に妥当な近似であるランダム フィードバック ローカル オンライン学習 (RFLO) を利用する新しい強化学習アルゴリズムを提案します。
。
これを、適格性トレースを備えた時間差強化学習の変形である TD($\lambda$) と組み合わせることで、POMDP での離散的および連続的な制御タスクを解決できる、生物学的に妥当で反復的なアクター批判アルゴリズムを作成します。
BPTT、RTRL、RFLO とさまざまなネットワーク アーキテクチャを比較したところ、RFLO は RTRL と同等のパフォーマンスを発揮しながら、複雑さの点では BPTT を上回っていることがわかりました。
リアルタイム再帰強化学習 (RTRRL) と呼ばれる提案された方法は、哺乳類の脳の報酬経路を模倣する生物学的ニューラル ネットワークにおける学習モデルとして機能します。
要約(オリジナル)
Recent advances in reinforcement learning, for partially-observable Markov decision processes (POMDPs), rely on the biologically implausible backpropagation through time algorithm (BPTT) to perform gradient-descent optimisation. In this paper we propose a novel reinforcement learning algorithm that makes use of random feedback local online learning (RFLO), a biologically plausible approximation of realtime recurrent learning (RTRL) to compute the gradients of the parameters of a recurrent neural network in an online manner. By combining it with TD($\lambda$), a variant of temporaldifference reinforcement learning with eligibility traces, we create a biologically plausible, recurrent actor-critic algorithm, capable of solving discrete and continuous control tasks in POMDPs. We compare BPTT, RTRL and RFLO as well as different network architectures, and find that RFLO can perform just as well as RTRL while exceeding even BPTT in terms of complexity. The proposed method, called real-time recurrent reinforcement learning (RTRRL), serves as a model of learning in biological neural networks mimicking reward pathways in the mammalian brain.
arxiv情報
著者 | Julian Lemmel,Radu Grosu |
発行日 | 2023-11-08 16:56:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google