Learning Diverse Bimanual Dexterous Manipulation Skills from Human Demonstrations

要約

両手による器用な操作は、ロボット工学において重要でありながら未開拓の分野である。その高次元行動空間と固有のタスクの複雑さは、政策学習にとって重大な課題となり、既存のベンチマークにおける限られたタスクの多様性は、汎用的なスキル開発の妨げとなる。既存のアプローチは強化学習に依存しており、多くの場合、狭いタスクセットに合わせた複雑に設計された報酬関数に制約されている。本研究では、豊富な人間の実演から多様な両手先の器用スキルを効率的に学習するための新しいアプローチを提示する。具体的には、BiDexHDを紹介する。BiDexHDは、既存の両手指データセットからタスクを構築し、全てのタスクに対応するために教師-生徒政策学習を採用するフレームワークである。教師は、共有された振る舞いを持つタスク間で一般的な2段階の報酬関数を用いて状態ベースのポリシーを学習し、生徒は学習されたマルチタスクポリシーをビジョンベースのポリシーに抽出する。BiDexHDにより、自動構築されたタスクから多数の両手器用スキルをスケーラブルに学習することが可能となり、普遍的な両手器用操作に向けた有望な前進を提供する。TACOデータセット(6カテゴリ141タスク)を用いた実証評価では、学習タスクで74.59%、未見タスクで51.07%のタスク達成率を示し、BiDexHDの有効性と競争力のあるゼロショット汎化能力を示しています。ビデオや詳細については、プロジェクトページhttps://sites.google.com/view/bidexhd。

要約(オリジナル)

Bimanual dexterous manipulation is a critical yet underexplored area in robotics. Its high-dimensional action space and inherent task complexity present significant challenges for policy learning, and the limited task diversity in existing benchmarks hinders general-purpose skill development. Existing approaches largely depend on reinforcement learning, often constrained by intricately designed reward functions tailored to a narrow set of tasks. In this work, we present a novel approach for efficiently learning diverse bimanual dexterous skills from abundant human demonstrations. Specifically, we introduce BiDexHD, a framework that unifies task construction from existing bimanual datasets and employs teacher-student policy learning to address all tasks. The teacher learns state-based policies using a general two-stage reward function across tasks with shared behaviors, while the student distills the learned multi-task policies into a vision-based policy. With BiDexHD, scalable learning of numerous bimanual dexterous skills from auto-constructed tasks becomes feasible, offering promising advances toward universal bimanual dexterous manipulation. Our empirical evaluation on the TACO dataset, spanning 141 tasks across six categories, demonstrates a task fulfillment rate of 74.59% on trained tasks and 51.07% on unseen tasks, showcasing the effectiveness and competitive zero-shot generalization capabilities of BiDexHD. For videos and more information, visit our project page https://sites.google.com/view/bidexhd.

arxiv情報

著者 Bohan Zhou,Haoqi Yuan,Yuhui Fu,Zongqing Lu
発行日 2024-10-03 13:35:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO パーマリンク