UniGraspTransformer: Simplified Policy Distillation for Scalable Dexterous Robotic Grasping

要約

UniGraspTransformerを紹介する。UniGraspTransformerは、器用なロボット把持のための普遍的なTransformerベースのネットワークであり、スケーラビリティと性能を向上させながら学習を簡素化する。UniGraspTransformerは、UniDexGrasp++のような複雑で多段階の学習パイプラインを必要とする先行手法とは異なり、合理化されたプロセスに従っている。まず、強化学習を用いて個々のオブジェクトに対して専用のポリシーネットワークを学習し、把持に成功する軌道を生成する。次に、これらの軌道を単一の普遍的なネットワークに抽出する。私たちのアプローチにより、UniGraspTransformerは、多様なポーズを持つ何千ものオブジェクトを扱うために、最大12個の自己注意ブロックを組み込み、効果的に拡張することができます。さらに、状態ベースと視覚ベースの設定で評価した結果、理想化された入力と実世界の入力の両方にうまく一般化する。特に、UniGraspTransformerは、様々な形状と向きの物体に対して、より幅広い把持ポーズを生成し、より多様な把持戦略をもたらす。実験結果は、様々な物体カテゴリにおいて、最先端のUniDexGrasp++を大きく上回り、視覚ベースの設定では、見た物体、見たカテゴリ内の見たことのない物体、完全に見たことのない物体において、それぞれ3.5%、7.7%、10.1%の成功率向上を達成しています。プロジェクトページ: https://dexhand.github.io/UniGraspTransformer.

要約(オリジナル)

We introduce UniGraspTransformer, a universal Transformer-based network for dexterous robotic grasping that simplifies training while enhancing scalability and performance. Unlike prior methods such as UniDexGrasp++, which require complex, multi-step training pipelines, UniGraspTransformer follows a streamlined process: first, dedicated policy networks are trained for individual objects using reinforcement learning to generate successful grasp trajectories; then, these trajectories are distilled into a single, universal network. Our approach enables UniGraspTransformer to scale effectively, incorporating up to 12 self-attention blocks for handling thousands of objects with diverse poses. Additionally, it generalizes well to both idealized and real-world inputs, evaluated in state-based and vision-based settings. Notably, UniGraspTransformer generates a broader range of grasping poses for objects in various shapes and orientations, resulting in more diverse grasp strategies. Experimental results demonstrate significant improvements over state-of-the-art, UniDexGrasp++, across various object categories, achieving success rate gains of 3.5%, 7.7%, and 10.1% on seen objects, unseen objects within seen categories, and completely unseen objects, respectively, in the vision-based setting. Project page: https://dexhand.github.io/UniGraspTransformer.

arxiv情報

著者 Wenbo Wang,Fangyun Wei,Lei Zhou,Xi Chen,Lin Luo,Xiaohan Yi,Yizhong Zhang,Yaobo Liang,Chang Xu,Yan Lu,Jiaolong Yang,Baining Guo
発行日 2024-12-03 18:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク