Bi-Manual Block Assembly via Sim-to-Real Reinforcement Learning

要約

ロボット操作のほとんどの成功は、シングル アーム グリッパー ロボットに限られています。その器用さが低いため、解決可能なタスクの範囲がピック アンド プレース、挿入、およびオブジェクトの再配置に制限されています。
組み立てなどのより複雑なタスクには、デュアルアームおよびマルチアームのプラットフォームが必要ですが、バイアームの調整と衝突回避、堅牢な把持、長期的な計画など、一連の固有の課題が伴います。
この作業では、シミュレーションで深層強化学習 (RL) ポリシーをトレーニングし、それらを現実世界 (Sim2Real) に転送することの実現可能性を、現実世界の双手ロボット操作タスクの高性能コントローラーを取得するための一般的な方法論として調査します。
両手操作のテストベッドとして、平行グリッパーを備えた 2 台のロボットが 3 つの磁気ブロックを接続して U 字型を形成する、U 字型磁気ブロック アセンブリ タスクを開発しました。
手動で設計されたコントローラーや人間によるデモンストレーションがなくても、Sim2Real を慎重に考慮して、シミュレーションで RL を使用してトレーニングされたポリシーにより、2 つの xArm6 ロボットが U 字型アセンブリ タスクをシミュレーションで 90% 以上の成功率で解決できることを実証します。
実際のハードウェアに追加の微調整を加える必要はありません。
慎重なアブレーションを通じて、システムの各コンポーネントが、タスクの指定、学習アルゴリズム、直接的な関節空間制御、行動の制約、知覚と作動のノイズ、行動の遅延、行動の補間など、このような単純で成功したポリシーの学習と伝達にどのように重要であるかを強調します。
.
私たちの結果は、実際のハードウェアでのバイアーム機能の大きな前進を示しており、私たちのシステムがディープ RL と Sim2Real によるバイマニュアル ポリシーの転送に関する将来の研究を刺激し、現実世界のロボット マニピュレーターの機能を大幅にスケールアップできることを願っています。

要約(オリジナル)

Most successes in robotic manipulation have been restricted to single-arm gripper robots, whose low dexterity limits the range of solvable tasks to pick-and-place, inser-tion, and object rearrangement. More complex tasks such as assembly require dual and multi-arm platforms, but entail a suite of unique challenges such as bi-arm coordination and collision avoidance, robust grasping, and long-horizon planning. In this work we investigate the feasibility of training deep reinforcement learning (RL) policies in simulation and transferring them to the real world (Sim2Real) as a generic methodology for obtaining performant controllers for real-world bi-manual robotic manipulation tasks. As a testbed for bi-manual manipulation, we develop the U-Shape Magnetic BlockAssembly Task, wherein two robots with parallel grippers must connect 3 magnetic blocks to form a U-shape. Without manually-designed controller nor human demonstrations, we demonstrate that with careful Sim2Real considerations, our policies trained with RL in simulation enable two xArm6 robots to solve the U-shape assembly task with a success rate of above90% in simulation, and 50% on real hardware without any additional real-world fine-tuning. Through careful ablations,we highlight how each component of the system is critical for such simple and successful policy learning and transfer,including task specification, learning algorithm, direct joint-space control, behavior constraints, perception and actuation noises, action delays and action interpolation. Our results present a significant step forward for bi-arm capability on real hardware, and we hope our system can inspire future research on deep RL and Sim2Real transfer of bi-manualpolicies, drastically scaling up the capability of real-world robot manipulators.

arxiv情報

著者 Satoshi Kataoka,Youngseog Chung,Seyed Kamyar Seyed Ghasemipour,Pannag Sanketi,Shixiang Shane Gu,Igor Mordatch
発行日 2023-03-27 01:25:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク