Learning fast changing slow in spiking neural networks

要約

強化学習 (RL) は、現実の問題に適用すると大きな課題に直面します。その主な原因は、環境との相互作用が限られていることによる利用可能なデータの不足にあります。
この制限は、RL が効果的な学習のためにしばしばかなりの量のデータを必要とするという事実によってさらに悪化します。
反復スパイク ネットワークで RL を実装する場合、複雑さはさらにエスカレートします。スパイクによってもたらされる固有のノイズにより、さらに困難さが増します。
生涯学習マシンは本質的に可塑性と安定性のパラドックスを解決する必要があります。
人工エージェントにとって、新しい知識の獲得と安定性の維持の間のバランスを取ることが重要です。
この課題に対処するために、私たちは機械学習テクノロジーからインスピレーションを得て、lf-cs (Learning Fast Changing Slow) と呼ばれる生物学的に妥当な近接ポリシー最適化の実装を導入しました。
私たちのアプローチは 2 つの注目すべき進歩をもたらしました。第 1 に、現在のポリシーを変更することなく、新しい情報を新しいポリシーに組み込むことができることです。
第二に、ポリシーの相違を経験することなくエクスペリエンスを再現する機能です。
さらに、他のエクスペリエンス リプレイ (ER) 手法と比較すると、私たちの方法はオンライン設定での計算効率が高いという追加の利点を示しています。
提案された方法論が学習の効率を向上させることを実証し、ニューロモーフィックおよび現実世界のアプリケーションに対する潜在的な影響を示します。

要約(オリジナル)

Reinforcement learning (RL) faces substantial challenges when applied to real-life problems, primarily stemming from the scarcity of available data due to limited interactions with the environment. This limitation is exacerbated by the fact that RL often demands a considerable volume of data for effective learning. The complexity escalates further when implementing RL in recurrent spiking networks, where inherent noise introduced by spikes adds a layer of difficulty. Life-long learning machines must inherently resolve the plasticity-stability paradox. Striking a balance between acquiring new knowledge and maintaining stability is crucial for artificial agents. To address this challenge, we draw inspiration from machine learning technology and introduce a biologically plausible implementation of proximal policy optimization, referred to as lf-cs (learning fast changing slow). Our approach results in two notable advancements: firstly, the capacity to assimilate new information into a new policy without requiring alterations to the current policy; and secondly, the capability to replay experiences without experiencing policy divergence. Furthermore, when contrasted with other experience replay (ER) techniques, our method demonstrates the added advantage of being computationally efficient in an online setting. We demonstrate that the proposed methodology enhances the efficiency of learning, showcasing its potential impact on neuromorphic and real-world applications.

arxiv情報

著者 Cristiano Capone,Paolo Muratore
発行日 2024-04-09 15:47:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE パーマリンク