要約
この論文では、ArticuBotを紹介する。ArticuBotは、単一の学習されたポリシーにより、ロボットシステムが実世界で未見の多様な関節オブジェクトのカテゴリを開くことを可能にする。このタスクは、そのような物体の形状、大きさ、関節の種類に大きなばらつきがあるため、ロボット工学にとって長い間困難であった。私たちのシステムArticubotは3つの部分から構成されている。物理ベースのシミュレーションで多数のデモンストレーションを生成すること、模倣学習によって生成されたすべてのデモンストレーションを点群ベースのニューラルポリシーに抽出すること、そして実際のロボットシステムへのゼロショットsim2real転送を実行することである。サンプリングに基づく把持と運動計画を利用することで、我々のデモ汎化パイプラインは高速かつ効果的であり、322個の訓練用多関節物体に対して合計42.3k個のデモを生成した。政策学習のために、我々は新しい階層的政策表現を提案し、高レベル政策はエンドエフェクタのサブゴールを学習し、低レベル政策は予測されたゴールを条件としてエンドエフェクタをどのように動かすかを学習する。我々は、この階層的アプローチが、非階層的バージョンと比較して、はるかに優れたオブジェクトレベルの汎化を達成することを実証する。さらに、シーンの既存の3D構造に予測を根拠づける、高レベルのポリシーのための新しい重み付き変位モデルを提案し、代替のポリシー表現を凌駕する。我々は、学習された方針が、3つの異なる実際のロボット設定にゼロショット転送できることを示す:2つの異なる研究室にわたる固定テーブルトップフランカアーム、移動ベース上のXアーム、2つの研究室にわたる複数の未知の多関節オブジェクトを開く、実際のラウンジ、キッチン。動画とコードはプロジェクトのウェブサイトhttps://articubot.github.io/。
要約(オリジナル)
This paper presents ArticuBot, in which a single learned policy enables a robotics system to open diverse categories of unseen articulated objects in the real world. This task has long been challenging for robotics due to the large variations in the geometry, size, and articulation types of such objects. Our system, Articubot, consists of three parts: generating a large number of demonstrations in physics-based simulation, distilling all generated demonstrations into a point cloud-based neural policy via imitation learning, and performing zero-shot sim2real transfer to real robotics systems. Utilizing sampling-based grasping and motion planning, our demonstration generalization pipeline is fast and effective, generating a total of 42.3k demonstrations over 322 training articulated objects. For policy learning, we propose a novel hierarchical policy representation, in which the high-level policy learns the sub-goal for the end-effector, and the low-level policy learns how to move the end-effector conditioned on the predicted goal. We demonstrate that this hierarchical approach achieves much better object-level generalization compared to the non-hierarchical version. We further propose a novel weighted displacement model for the high-level policy that grounds the prediction into the existing 3D structure of the scene, outperforming alternative policy representations. We show that our learned policy can zero-shot transfer to three different real robot settings: a fixed table-top Franka arm across two different labs, and an X-Arm on a mobile base, opening multiple unseen articulated objects across two labs, real lounges, and kitchens. Videos and code can be found on our project website: https://articubot.github.io/.
arxiv情報
| 著者 | Yufei Wang,Ziyu Wang,Mino Nakura,Pratik Bhowal,Chia-Liang Kuo,Yi-Ting Chen,Zackory Erickson,David Held |
| 発行日 | 2025-05-01 21:26:22+00:00 |
| arxivサイト | arxiv_id(pdf) |