要約
模倣学習と強化学習では、人間による監督のコストによって、ロボットがトレーニングできるデータの量が制限されます。
野心的な目標は、自己改善型ロボットを構築することです。これは、最小限の人間の監督または監督で自律的な相互作用から、自分で学習および改善できるロボットです。
このようなロボットは、はるかに大きなデータセットを収集してトレーニングできるため、より堅牢でパフォーマンスの高いポリシーを学習できます。
強化学習は、試行錯誤によるこのような自律学習のフレームワークを提供しますが、実際の実現には、報酬関数の設計と相互作用のエピソード間の環境の繰り返しのリセットのための広範な人間の監督が必要になります。
この作業では、自己改善型ロボット システムの斬新な設計である MEDAL++ を提案します。開始時に少数の専門家のデモンストレーションが与えられると、ロボットは、タスクの実行と取り消しの両方を学習することでタスクを自律的に実践し、同時に報酬関数を推論します。
デモンストレーションから。
ポリシーと報酬関数は、高次元のビジュアル入力からエンドツーエンドで学習され、以前の作業で使用されたビジュアル エンコーダーの明示的な状態推定またはタスク固有の事前トレーニングの必要性をバイパスします。
最初に、シミュレートされた非エピソード ベンチマーク EARL で提案されたアルゴリズムを評価し、最先端の視覚ベースの方法と比較して、MEDAL++ はデータ効率が高く、最終的なパフォーマンスが最大 30% 向上することを発見しました。
私たちの実際のロボット実験は、MEDAL++ が以前の研究で考えられていたものよりも大きな環境での操作問題に適用できることを示しています。また、自律的な自己改善は、専門家データだけでの行動のクローン作成よりも成功率を 30 ~ 70% 向上させることができます。
コード、トレーニング、評価のビデオと簡単な概要は、https://architsharma97.github.io/self-improving-robots/ で入手できます。
要約(オリジナル)
In imitation and reinforcement learning, the cost of human supervision limits the amount of data that robots can be trained on. An aspirational goal is to construct self-improving robots: robots that can learn and improve on their own, from autonomous interaction with minimal human supervision or oversight. Such robots could collect and train on much larger datasets, and thus learn more robust and performant policies. While reinforcement learning offers a framework for such autonomous learning via trial-and-error, practical realizations end up requiring extensive human supervision for reward function design and repeated resetting of the environment between episodes of interactions. In this work, we propose MEDAL++, a novel design for self-improving robotic systems: given a small set of expert demonstrations at the start, the robot autonomously practices the task by learning to both do and undo the task, simultaneously inferring the reward function from the demonstrations. The policy and reward function are learned end-to-end from high-dimensional visual inputs, bypassing the need for explicit state estimation or task-specific pre-training for visual encoders used in prior work. We first evaluate our proposed algorithm on a simulated non-episodic benchmark EARL, finding that MEDAL++ is both more data efficient and gets up to 30% better final performance compared to state-of-the-art vision-based methods. Our real-robot experiments show that MEDAL++ can be applied to manipulation problems in larger environments than those considered in prior work, and autonomous self-improvement can improve the success rate by 30-70% over behavior cloning on just the expert data. Code, training and evaluation videos along with a brief overview is available at: https://architsharma97.github.io/self-improving-robots/
arxiv情報
| 著者 | Archit Sharma,Ahmed M. Ahmed,Rehaan Ahmad,Chelsea Finn |
| 発行日 | 2023-03-02 18:51:38+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google