Evolving Reservoirs for Meta Reinforcement Learning

要約

動物は、生涯を通じて環境に適応する驚くべき能力を示すことがよくあります。
彼らは部分的には形態学的構造と神経構造の進化によりそうします。
これらの構造は、世代間で共有される環境の特徴を捉えて、生涯学習にバイアスをかけ、加速します。
この研究では、そのようなプロセスを可能にするメカニズムを研究するための計算モデルを提案します。
進化と発達の間の相互作用のモデルとしてメタ強化学習に基づく計算フレームワークを採用します。
進化のスケールでは、リザーバーを進化させます。リザーバーはリカレント ニューラル ネットワークのファミリーであり、シナプスの重みを最適化するのではなく、結果として得られるネットワーク アーキテクチャのマクロレベルの特性を制御するハイパーパラメーターを最適化する点で従来のネットワークとは異なります。
発達スケールでは、これらの進化した貯蔵庫を利用して、強化学習 (RL) による行動方針の学習を促進します。
RL エージェント内では、リザーバーは環境状態をアクション ポリシーに提供する前にエンコードします。
いくつかの 2D および 3D シミュレーション環境でアプローチを評価します。
私たちの結果は、貯水池の進化が多様で困難な課題の学習を向上させる可能性があることを示しています。
私たちは特に 3 つの仮説を研究します。リザーバーと強化学習を組み合わせたアーキテクチャを使用すると、(1) 部分的な可観測性を備えたタスクの解決、(2) 移動タスクの学習を促進する振動ダイナミクスの生成、および (3) 運動タスクの一般化の促進が可能になる可能性があります。
進化段階では未知の新しいタスクに対する学習行動。

要約(オリジナル)

Animals often demonstrate a remarkable ability to adapt to their environments during their lifetime. They do so partly due to the evolution of morphological and neural structures. These structures capture features of environments shared between generations to bias and speed up lifetime learning. In this work, we propose a computational model for studying a mechanism that can enable such a process. We adopt a computational framework based on meta reinforcement learning as a model of the interplay between evolution and development. At the evolutionary scale, we evolve reservoirs, a family of recurrent neural networks that differ from conventional networks in that one optimizes not the synaptic weights, but hyperparameters controlling macro-level properties of the resulting network architecture. At the developmental scale, we employ these evolved reservoirs to facilitate the learning of a behavioral policy through Reinforcement Learning (RL). Within an RL agent, a reservoir encodes the environment state before providing it to an action policy. We evaluate our approach on several 2D and 3D simulated environments. Our results show that the evolution of reservoirs can improve the learning of diverse challenging tasks. We study in particular three hypotheses: the use of an architecture combining reservoirs and reinforcement learning could enable (1) solving tasks with partial observability, (2) generating oscillatory dynamics that facilitate the learning of locomotion tasks, and (3) facilitating the generalization of learned behaviors to new tasks unknown during the evolution phase.

arxiv情報

著者 Corentin Léger,Gautier Hamon,Eleni Nisioti,Xavier Hinaut,Clément Moulin-Frier
発行日 2024-01-29 16:08:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE パーマリンク