Cherry-Picking with Reinforcement Learning : Robust Dynamic Grasping in Unstable Conditions


接触とダイナミクスの正確なモデルを構築するという困難を回避するため、強化学習 (RL) のようなデータ駆動型の手法を使用すると、試行錯誤を通じてタスクのパフォーマンスを最適化し、接触とダイナミクスの正確なモデルの必要性を軽減できます。
しかし、RL 手法を実際のロボットに適用することは、サンプルの法外な複雑さ、ハードウェアのリセットを提供するためのトレーニング インフラストラクチャのコストの高さなどの要因によって妨げられてきました。
この研究では、一部の動的把握タスクにおいて人間の反応性を超える微細な操作に箸を使用する RL システム、CherryBot を紹介します。
私たちのシステムは、30 分間の実世界のインタラクションを通じて継続的な改善を示しています。反応的な再試行により、空中で揺れる小さな物体を箸を使ってつかむという難しいタスクで、ほぼ 100% の成功率を達成しました。
私たちは、さまざまなオブジェクトの形状やダイナミクス (風や人間の摂動などの外乱) に対する CherryBot の反応性、堅牢性、一般化性を実証します。
ビデオは でご覧いただけます。


Grasping small objects surrounded by unstable or non-rigid material plays a crucial role in applications such as surgery, harvesting, construction, disaster recovery, and assisted feeding. This task is especially difficult when fine manipulation is required in the presence of sensor noise and perception errors; errors inevitably trigger dynamic motion, which is challenging to model precisely. Circumventing the difficulty to build accurate models for contacts and dynamics, data-driven methods like reinforcement learning (RL) can optimize task performance via trial and error, reducing the need for accurate models of contacts and dynamics. Applying RL methods to real robots, however, has been hindered by factors such as prohibitively high sample complexity or the high training infrastructure cost for providing resets on hardware. This work presents CherryBot, an RL system that uses chopsticks for fine manipulation that surpasses human reactiveness for some dynamic grasping tasks. By integrating imprecise simulators, suboptimal demonstrations and external state estimation, we study how to make a real-world robot learning system sample efficient and general while reducing the human effort required for supervision. Our system shows continual improvement through 30 minutes of real-world interaction: through reactive retry, it achieves an almost 100% success rate on the demanding task of using chopsticks to grasp small objects swinging in the air. We demonstrate the reactiveness, robustness and generalizability of CherryBot to varying object shapes and dynamics (e.g., external disturbances like wind and human perturbations). Videos are available at


著者 Yunchu Zhang,Liyiming Ke,Abhay Deshpande,Abhishek Gupta,Siddhartha Srinivasa
発行日 2023-06-28 15:39:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.RO パーマリンク