Get a Grip: Multi-Finger Grasp Evaluation at Scale Enables Robust Sim-to-Real Transfer

要約

この研究では、複数の指による把握アルゴリズムが堅牢なシミュレーションからリアルへの変換を達成できる条件を調査します。
多数の大規模なデータセットにより、大規模な複数指による把握のための生成モデルの学習が容易になりますが、信頼性の高い現実世界での器用な把握は依然として困難であり、ほとんどの手法はハードウェアに展開すると性能が低下します。
別の戦略は、現実世界のセンサー測定に基づいて、識別的な把握評価モデルを使用して把握の選択と改良を行うことです。
このパラダイムは、視覚に基づいた平行顎の把握に関して最先端の結果をもたらしましたが、複数の指の設定ではまだ証明されていません。
この研究では、既存のデータセットと手法では、複数の指で把握するための識別モデルをトレーニングするには不十分であることがわかりました。
把握評価者を大規模にトレーニングするには、データセットは、肯定的な例と否定的な例の両方を含む数百万件の把握と、推論時の測定に似た対応する視覚データを提供する必要があります。
そのために、RGB 画像、点群、トレーニング済み NeRF で注釈が付けられた 4.3K のオブジェクトに関する 350 万件の把握の新しいオープンソース データセットをリリースします。
このデータセットを活用して、さまざまなオブジェクトにわたる広範なシミュレーションおよび現実世界のトライアルで、分析および生成モデリングベースのベースラインの両方を上回るビジョンベースの把握評価者をトレーニングします。
多数のアブレーションを通じて、パフォーマンスの重要な要素は確かに評価者であること、そしてデータセットが縮小するにつれて評価者の品質が低下することを示し、新しいデータセットの重要性を示しています。
プロジェクトの Web サイト: https://sites.google.com/view/get-a-grip-dataset。

要約(オリジナル)

This work explores conditions under which multi-finger grasping algorithms can attain robust sim-to-real transfer. While numerous large datasets facilitate learning generative models for multi-finger grasping at scale, reliable real-world dexterous grasping remains challenging, with most methods degrading when deployed on hardware. An alternate strategy is to use discriminative grasp evaluation models for grasp selection and refinement, conditioned on real-world sensor measurements. This paradigm has produced state-of-the-art results for vision-based parallel-jaw grasping, but remains unproven in the multi-finger setting. In this work, we find that existing datasets and methods have been insufficient for training discriminitive models for multi-finger grasping. To train grasp evaluators at scale, datasets must provide on the order of millions of grasps, including both positive and negative examples, with corresponding visual data resembling measurements at inference time. To that end, we release a new, open-source dataset of 3.5M grasps on 4.3K objects annotated with RGB images, point clouds, and trained NeRFs. Leveraging this dataset, we train vision-based grasp evaluators that outperform both analytic and generative modeling-based baselines on extensive simulated and real-world trials across a diverse range of objects. We show via numerous ablations that the key factor for performance is indeed the evaluator, and that its quality degrades as the dataset shrinks, demonstrating the importance of our new dataset. Project website at: https://sites.google.com/view/get-a-grip-dataset.

arxiv情報

著者 Tyler Ga Wei Lum,Albert H. Li,Preston Culbertson,Krishnan Srinivasan,Aaron D. Ames,Mac Schwager,Jeannette Bohg
発行日 2024-10-31 07:45:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク