DexSim2Real$^{2}$: Building Explicit World Model for Precise Articulated Object Dexterous Manipulation

要約

多関節オブジェクトの操作は日常生活のいたるところで行われています。
この論文では、2 本の指のグリッパーと複数の指の器用な手の両方を使用した、目標条件付き多関節オブジェクト操作のための新しいロボット学習フレームワークである DexSim2Real$^{2}$ を紹介します。
私たちのフレームワークの鍵は、アクティブなワンステップのインタラクションを通じて、目に見えない多関節オブジェクトの明示的な世界モデルを構築することです。
この明示的な世界モデルにより、サンプリング ベースのモデル予測制御が可能になり、人によるデモンストレーションや強化学習を必要とせずに、さまざまな操作目標を達成する軌道を計画できます。
まず、自己教師付きインタラクション データまたはインターネットからの人間の操作のビデオで訓練されたアフォーダンス推定ネットワークを使用して、インタラクションの動作を予測します。
実際のロボットでこのインタラクションを実行した後、フレームワークはインタラクションの前後の 2 つの点群に基づいてシミュレーションで多関節オブジェクトのデジタル ツインを構築します。
複数の指を使った器用な操作のために、固有把握を利用して高次元のアクション空間を削減し、より効率的な軌道探索を可能にすることを提案します。
広範な実験により、シミュレーションと現実世界の両方で、2 本の指のグリッパーと 16-DoF の器用な手を使用して、多関節オブジェクトを正確に操作するためのフレームワークの有効性が検証されています。
明示的ワールド モデルの堅牢な一般化可能性により、さまざまなツールを使用した操作などの高度な操作戦略も可能になります。

要約(オリジナル)

Articulated object manipulation is ubiquitous in daily life. In this paper, we present DexSim2Real$^{2}$, a novel robot learning framework for goal-conditioned articulated object manipulation using both two-finger grippers and multi-finger dexterous hands. The key of our framework is constructing an explicit world model of unseen articulated objects through active one-step interactions. This explicit world model enables sampling-based model predictive control to plan trajectories achieving different manipulation goals without needing human demonstrations or reinforcement learning. It first predicts an interaction motion using an affordance estimation network trained on self-supervised interaction data or videos of human manipulation from the internet. After executing this interaction on the real robot, the framework constructs a digital twin of the articulated object in simulation based on the two point clouds before and after the interaction. For dexterous multi-finger manipulation, we propose to utilize eigengrasp to reduce the high-dimensional action space, enabling more efficient trajectory searching. Extensive experiments validate the framework’s effectiveness for precise articulated object manipulation in both simulation and the real world using a two-finger gripper and a 16-DoF dexterous hand. The robust generalizability of the explicit world model also enables advanced manipulation strategies, such as manipulating with different tools.

arxiv情報

著者 Taoran Jiang,Liqian Ma,Yixuan Guan,Jiaojiao Meng,Weihang Chen,Zecui Zeng,Lusong Li,Dan Wu,Jing Xu,Rui Chen
発行日 2024-09-13 12:00:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク