REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous Manipulation

要約

接触が多い対話を伴う器用な操作タスクは、モデルベースの制御システムと模倣学習アルゴリズムの両方にとって大きな課題となります。
この複雑さは、動的に接触を確立したり切断したり、掴みにくい力のバランスをとったり、大きな自由度を制御したりするための多指ロボットハンドの必要性から生じます。
強化学習 (RL) は、一般的な適用性と最適な操作戦略を自律的に取得する能力により、有望なアプローチを提供します。
ただし、実際のアプリケーションでは、多数のサンプルを生成し、環境をリセットし、報酬信号を取得する必要があるため、妨げられることがよくあります。
この研究では、これらの課題を軽減するために、RL で器用な操作スキルを学習するための効率的なシステムを導入します。
私たちのアプローチの主なアイデアは、サンプル効率の高い RL とリプレイ バッファー ブートストラップにおける最近の進歩を統合することです。
この組み合わせにより、さまざまなタスクやオブジェクトからのデータを新しいタスクのトレーニングの開始点として利用できるようになり、学習効率が大幅に向上します。
さらに、当社のシステムは、模倣ベースのピックアップ ポリシーを介して学習されたリセットと学習された報酬関数を組み込むことで、現実世界のトレーニング サイクルを完了し、手動のリセットや報酬エンジニアリングの必要性を排除します。
私たちは、新しいタスクの再生バッファーの初期化として過去のデータを再利用することの利点、たとえば、4 本指のロボット ハンドによる現実世界の複雑な操作スキルの迅速な習得を実証します。
(ビデオ: https://sites.google.com/view/reboot-dexterous)

要約(オリジナル)

Dexterous manipulation tasks involving contact-rich interactions pose a significant challenge for both model-based control systems and imitation learning algorithms. The complexity arises from the need for multi-fingered robotic hands to dynamically establish and break contacts, balance non-prehensile forces, and control large degrees of freedom. Reinforcement learning (RL) offers a promising approach due to its general applicability and capacity to autonomously acquire optimal manipulation strategies. However, its real-world application is often hindered by the necessity to generate a large number of samples, reset the environment, and obtain reward signals. In this work, we introduce an efficient system for learning dexterous manipulation skills with RL to alleviate these challenges. The main idea of our approach is the integration of recent advances in sample-efficient RL and replay buffer bootstrapping. This combination allows us to utilize data from different tasks or objects as a starting point for training new tasks, significantly improving learning efficiency. Additionally, our system completes the real-world training cycle by incorporating learned resets via an imitation-based pickup policy as well as learned reward functions, eliminating the need for manual resets and reward engineering. We demonstrate the benefits of reusing past data as replay buffer initialization for new tasks, for instance, the fast acquisition of intricate manipulation skills in the real world on a four-fingered robotic hand. (Videos: https://sites.google.com/view/reboot-dexterous)

arxiv情報

著者 Zheyuan Hu,Aaron Rovinsky,Jianlan Luo,Vikash Kumar,Abhishek Gupta,Sergey Levine
発行日 2023-09-06 19:05:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク