Efficient Skill Acquisition for Complex Manipulation Tasks in Obstructed Environments

要約

ロボットのスキル習得におけるデータ効率は、多種多様な少量生産の組み立て環境でロボットを運用する上で非常に重要である。このような環境でロボットを動作させるためには、わずか数回の簡単なデモンストレーションから得られる、強固な障害物回避能力と多彩な目標設定能力が必要です。しかし、既存のアプローチでは、これらの要件を満たすことはできません。深層強化学習(RL)は、ロボットが複雑な操作タスクを学習することを可能にしますが、サンプルの非効率性や安全性の懸念から、現実世界ではしばしば小さなタスクスペースに制限されます。モーションプランニング(MP)は、障害物のある環境でも衝突のない経路を生成できるが、複雑な操作タスクを解決することはできず、多くの場合、ユーザや物体固有の姿勢推定器によって指定された目標状態を必要とする。本研究では、障害物環境における複雑な操作タスクを解決するために、RLと組み合わせたMPのゴールを指定するための汎用的なゴール同定のためのオブジェクト中心生成モデル(OCGM)を活用した効率的なスキル習得のためのシステムを提案します。具体的には、OCGMは、新しいシーンにおいて、ワンショットで目標物識別と再識別を可能にし、MPが障害物を回避しながら目標物までロボットを誘導することを可能にします。これは、スキル遷移ネットワークと組み合わされ、MPの終端状態とサンプル効率の良いRLポリシーの実現可能な開始状態との間のギャップを埋めるものである。実験では、OCGMに基づく一発ゴール同定が、他のベースラインアプローチに匹敵する精度を提供すること、また、障害物環境における複雑な操作タスクにおいて、我々のモジュラーフレームワークが、最先端のRLアルゴリズムを含む競合ベースラインを有意差をもって上回ることが実証された。

要約(オリジナル)

Data efficiency in robotic skill acquisition is crucial for operating robots in varied small-batch assembly settings. To operate in such environments, robots must have robust obstacle avoidance and versatile goal conditioning acquired from only a few simple demonstrations. Existing approaches, however, fall short of these requirements. Deep reinforcement learning (RL) enables a robot to learn complex manipulation tasks but is often limited to small task spaces in the real world due to sample inefficiency and safety concerns. Motion planning (MP) can generate collision-free paths in obstructed environments, but cannot solve complex manipulation tasks and requires goal states often specified by a user or object-specific pose estimator. In this work, we propose a system for efficient skill acquisition that leverages an object-centric generative model (OCGM) for versatile goal identification to specify a goal for MP combined with RL to solve complex manipulation tasks in obstructed environments. Specifically, OCGM enables one-shot target object identification and re-identification in new scenes, allowing MP to guide the robot to the target object while avoiding obstacles. This is combined with a skill transition network, which bridges the gap between terminal states of MP and feasible start states of a sample-efficient RL policy. The experiments demonstrate that our OCGM-based one-shot goal identification provides competitive accuracy to other baseline approaches and that our modular framework outperforms competitive baselines, including a state-of-the-art RL algorithm, by a significant margin for complex manipulation tasks in obstructed environments.

arxiv情報

著者 Jun Yamada,Jack Collins,Ingmar Posner
発行日 2023-03-06 18:49:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO パーマリンク