要約
計画と推定を把握しているのは、ロボット工学の長年の研究問題であり、オブジェクトに把握可能なポーズを見つけるための2つの主要なアプローチを備えています:1)オブジェクトの3Dモデルとグリッパーに依存して有効な把握を推定するグリッパー、および2)データ駆動型の学習ベースのアプローチは、生のセンサー観測からの把握ポーズを識別するために訓練されたモデルを使用します。
後者は、トレーニング段階で包括的な幾何学的カバレッジを想定しています。
ただし、データ駆動型のアプローチは通常、テーブルトップシナリオに偏っており、より大きなオブジェクト(椅子など)を使用して、分散型シナリオに一般化するのに苦労しています。
さらに、これらの大きなオブジェクトの単一ビューからの生センサーデータ(RGB-Dデータなど)は不完全であり、追加の観測が必要です。
この論文では、幾何学的アプローチを取り、オブジェクトモデリング(NERFなど)の進歩を活用して、ターゲットオブジェクトの周りのビューからRGB画像を取得することにより暗黙モデルを構築します。
このモデルにより、明示的なメッシュモデルの抽出が可能になり、オブジェクトの検出やポーズ推定などの知覚タスクに役立つ新しい観点から視覚的な外観をキャプチャします。
さらに、NERF再構築された3DメッシュをSuperquadrics(SQS) – パラメトリックな幾何学的プリミティブに分解し、それぞれが事前に計算された一連の把握ポーズにマッピングされ、これらのプリミティブに基づいてターゲットオブジェクトの把握を把握できるようにします。
提案されたパイプラインは、a)モデリングステップでオブジェクトの騒々しい深さと不完全なビュー、およびb)あらゆるサイズのオブジェクトへの一般化を克服します。
より質的な結果については、補足ビデオおよびウェブページhttps://bit.ly/3zroanuを参照してください。
要約(オリジナル)
Grasp planning and estimation have been a longstanding research problem in robotics, with two main approaches to find graspable poses on the objects: 1) geometric approach, which relies on 3D models of objects and the gripper to estimate valid grasp poses, and 2) data-driven, learning-based approach, with models trained to identify grasp poses from raw sensor observations. The latter assumes comprehensive geometric coverage during the training phase. However, the data-driven approach is typically biased toward tabletop scenarios and struggle to generalize to out-of-distribution scenarios with larger objects (e.g. chair). Additionally, raw sensor data (e.g. RGB-D data) from a single view of these larger objects is often incomplete and necessitates additional observations. In this paper, we take a geometric approach, leveraging advancements in object modeling (e.g. NeRF) to build an implicit model by taking RGB images from views around the target object. This model enables the extraction of explicit mesh model while also capturing the visual appearance from novel viewpoints that is useful for perception tasks like object detection and pose estimation. We further decompose the NeRF-reconstructed 3D mesh into superquadrics (SQs) — parametric geometric primitives, each mapped to a set of precomputed grasp poses, allowing grasp composition on the target object based on these primitives. Our proposed pipeline overcomes the problems: a) noisy depth and incomplete view of the object, with a modeling step, and b) generalization to objects of any size. For more qualitative results, refer to the supplementary video and webpage https://bit.ly/3ZrOanU
arxiv情報
著者 | Xun Tu,Karthik Desingh |
発行日 | 2025-04-10 01:26:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google