要約
この研究では、局所ヘビアン可塑性を備えた脳にヒントを得た神経アンサンブルが動的エージェントを制御するために能動推論 (AIF) をどのように実行できるかを研究しています。
環境ダイナミクスを捕捉する生成モデルは、2 つの異なるヘビアン アンサンブルで構成されるネットワークによって学習されます。1 つは観察に基づいて潜在状態を推論する事後ネットワーク、もう 1 つは現在の状態とアクションのペアに基づいて次の期待される潜在状態を予測する状態遷移ネットワークです。
。
実験研究は、OpenAI ジム スイートの Mountain Car 環境を使用して実施され、タスクのパフォーマンスに対するさまざまな Hebbian ネットワーク パラメーターの影響を研究します。
提案された Hebbian AIF アプローチは、典型的な強化学習システムのような再生バッファーを必要とせずに、Q 学習の使用よりも優れたパフォーマンスを発揮することが示されています。
これらの結果は、過去のバッファされた経験を再検討する必要なく環境ダイナミクスを学習できる AIF ネットワークの設計のためのヘビアン学習のさらなる研究の動機付けとなります。
要約(オリジナル)
This work studies how brain-inspired neural ensembles equipped with local Hebbian plasticity can perform active inference (AIF) in order to control dynamical agents. A generative model capturing the environment dynamics is learned by a network composed of two distinct Hebbian ensembles: a posterior network, which infers latent states given the observations, and a state transition network, which predicts the next expected latent state given current state-action pairs. Experimental studies are conducted using the Mountain Car environment from the OpenAI gym suite, to study the effect of the various Hebbian network parameters on the task performance. It is shown that the proposed Hebbian AIF approach outperforms the use of Q-learning, while not requiring any replay buffer, as in typical reinforcement learning systems. These results motivate further investigations of Hebbian learning for the design of AIF networks that can learn environment dynamics without the need for revisiting past buffered experiences.
arxiv情報
著者 | Ali Safa,Tim Verbelen,Lars Keuninckx,Ilja Ocket,André Bourdoux,Francky Catthoor,Georges Gielen,Gert Cauwenberghs |
発行日 | 2023-06-22 16:34:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google