Modulating Reservoir Dynamics via Reinforcement Learning for Efficient Robot Skill Synthesis

要約

リザーバーと呼ばれるランダム再帰型ニューラル ネットワークを使用すると、タスクの目標をコード化するコンテキスト入力を条件としたロボットの動きを学習できます。
学習は、コンテキストによって変調されたリザーバーのランダムなダイナミクスを線形回帰を介して目的の軌道にマッピングすることによって実現されます。
これにより、反復勾配降下学習が必要ないため、リザーバー コンピューティング (RC) アプローチの計算効率が向上します。
この研究では、新しい RC ベースのデモンストレーションからの学習 (LfD) フレームワークを提案します。このフレームワークでは、デモンストレーションされた動きを生成する方法を学習するだけでなく、貯留層のダイナミクスをオンラインで調整して、最初のデモンストレーション セットではカバーされていない動きの軌道を生成することもできます。
これは、ロボットの状態に基づいてコンテキストをアクションとして出力するポリシーを学習する強化学習 (RL) モジュールを使用することで可能になります。
コンテキストの次元が一般に低いことを考慮すると、RL モジュールを使用した学習は非常に効率的です。
障害物回避制約の有無にかかわらず、コンテキストとしてエンコードされたターゲットに到達するように学習される 2 自由度 (DOF) のシミュレートされたロボットでの系統的な実験により、提案されたモデルの妥当性を示します。
初期データセットには、貯留システムによって学習された一連の到達デモンストレーションが含まれています。
分布外のターゲットに到達できるようにするために、RL モジュールは動的コンテキストを生成するポリシーの学習に取り組み、生成された軌道が貯留システムで学習することなく望ましい目標を達成できるようにします。
全体として、提案されたモデルは、初期学習された運動プリミティブ セットを使用して、設計された報酬関数によって導かれる多様な運動動作を効率的に生成します。
したがって、このモデルは、新しいデータを収集することなくアクション レパートリーを拡張できる、柔軟で効果的な LfD システムとして使用できます。

要約(オリジナル)

A random recurrent neural network, called a reservoir, can be used to learn robot movements conditioned on context inputs that encode task goals. The Learning is achieved by mapping the random dynamics of the reservoir modulated by context to desired trajectories via linear regression. This makes the reservoir computing (RC) approach computationally efficient as no iterative gradient descent learning is needed. In this work, we propose a novel RC-based Learning from Demonstration (LfD) framework that not only learns to generate the demonstrated movements but also allows online modulation of the reservoir dynamics to generate movement trajectories that are not covered by the initial demonstration set. This is made possible by using a Reinforcement Learning (RL) module that learns a policy to output context as its actions based on the robot state. Considering that the context dimension is typically low, learning with the RL module is very efficient. We show the validity of the proposed model with systematic experiments on a 2 degrees-of-freedom (DOF) simulated robot that is taught to reach targets, encoded as context, with and without obstacle avoidance constraint. The initial data set includes a set of reaching demonstrations which are learned by the reservoir system. To enable reaching out-of-distribution targets, the RL module is engaged in learning a policy to generate dynamic contexts so that the generated trajectory achieves the desired goal without any learning in the reservoir system. Overall, the proposed model uses an initial learned motor primitive set to efficiently generate diverse motor behaviors guided by the designed reward function. Thus the model can be used as a flexible and effective LfD system where the action repertoire can be extended without new data collection.

arxiv情報

著者 Zahra Koulaeizadeh,Erhan Oztop
発行日 2024-11-17 07:25:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク