要約
現実世界のロボット操作タスクは、きめの細かい環境相互作用と、長期的な目標を計画する能力の両方を含むため、とらえどころのない課題のままです。
深層強化学習 (RL) メソッドは、高次元環境でエンドツーエンドを計画する際に有望な結果を示していますが、非効率的な探索によるサンプル効率の悪さと、長期にわたるクレジット割り当ての複雑さによって、根本的に制限されたままです。
この作業では、プレイからの高レベル計画の効率的な学習 (ELF-P) を提示します。これは、モーション プランニングとディープ RL を橋渡しして、長期にわたる複雑な操作タスクを達成するロボット学習のフレームワークです。
タスクにとらわれないプレイ データを活用して、オブジェクト中心のプリミティブよりも前に離散的な行動を学習し、現在のコンテキストを考慮してその実現可能性をモデル化します。
次に、(1) プリミティブを構築ブロックとして使用して複雑な長期タスクを足場にし、(2) 学習を加速する前に行動を活用する、高レベルの目標条件付きポリシーを設計します。
ELF-P は、複数の現実的な操作タスクで関連するベースラインよりもサンプル効率が大幅に向上し、物理ハードウェアに簡単に転送できるポリシーを学習することを示しています。
要約(オリジナル)
Real-world robotic manipulation tasks remain an elusive challenge, since they involve both fine-grained environment interaction, as well as the ability to plan for long-horizon goals. Although deep reinforcement learning (RL) methods have shown encouraging results when planning end-to-end in high-dimensional environments, they remain fundamentally limited by poor sample efficiency due to inefficient exploration, and by the complexity of credit assignment over long horizons. In this work, we present Efficient Learning of High-Level Plans from Play (ELF-P), a framework for robotic learning that bridges motion planning and deep RL to achieve long-horizon complex manipulation tasks. We leverage task-agnostic play data to learn a discrete behavioral prior over object-centric primitives, modeling their feasibility given the current context. We then design a high-level goal-conditioned policy which (1) uses primitives as building blocks to scaffold complex long-horizon tasks and (2) leverages the behavioral prior to accelerate learning. We demonstrate that ELF-P has significantly better sample efficiency than relevant baselines over multiple realistic manipulation tasks and learns policies that can be easily transferred to physical hardware.
arxiv情報
著者 | Núria Armengol Urpí,Marco Bagatella,Otmar Hilliges,Georg Martius,Stelian Coros |
発行日 | 2023-03-16 20:09:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google