要約
多様な物体を器用に把持することは、ロボット学習における基本的かつ困難な課題である。強化学習(RL)を用いた既存のアプローチは、マルチタスク学習のための複雑なカリキュラム設計や、未見物体への限定的な汎化など、重大な限界に直面している。これらの課題を克服するために、我々はResDexを導入する。ResDexは、残差政策学習をMoE(Mixture-of-Experts)フレームワークと統合した新しいアプローチである。ResDexの特徴は、個々の物体に対して効率的に獲得され、広範囲の未見物体に対して汎化可能な、形状を意識しない基本方針を用いることである。我々のMoEフレームワークは、様々な物体に適した多様な把持スタイルを促進するために、複数の基本方針を組み込んでいる。ResDexは、これらの基本方針を組み合わせた重みとともに残差動作を学習することで、普遍的な器用把持のための効率的なマルチタスクRLを実現する。ResDexは、3,200物体からなるDexGraspNetデータセットにおいて、88.8%の成功率で最先端の性能を達成した。また、未見の物体との汎化ギャップを示さず、GPU1台でわずか12時間以内に全てのタスクをマスターするという優れた学習効率を示している。
要約(オリジナル)
Universal dexterous grasping across diverse objects presents a fundamental yet formidable challenge in robot learning. Existing approaches using reinforcement learning (RL) to develop policies on extensive object datasets face critical limitations, including complex curriculum design for multi-task learning and limited generalization to unseen objects. To overcome these challenges, we introduce ResDex, a novel approach that integrates residual policy learning with a mixture-of-experts (MoE) framework. ResDex is distinguished by its use of geometry-unaware base policies that are efficiently acquired on individual objects and capable of generalizing across a wide range of unseen objects. Our MoE framework incorporates several base policies to facilitate diverse grasping styles suitable for various objects. By learning residual actions alongside weights that combine these base policies, ResDex enables efficient multi-task RL for universal dexterous grasping. ResDex achieves state-of-the-art performance on the DexGraspNet dataset comprising 3,200 objects with an 88.8% success rate. It exhibits no generalization gap with unseen objects and demonstrates superior training efficiency, mastering all tasks within only 12 hours on a single GPU.
arxiv情報
著者 | Ziye Huang,Haoqi Yuan,Yuhui Fu,Zongqing Lu |
発行日 | 2024-10-03 13:33:02+00:00 |
arxivサイト | arxiv_id(pdf) |