Real-to-Sim Grasp: Rethinking the Gap between Simulation and Real World in Grasp Detection

要約

6-DoF 把握検出では、シミュレートされたデータを拡張してより強力なモデルをトレーニングできますが、シミュレーションと現実世界の間に大きなギャップがあるという課題に直面しています。
以前の作品は、シミュレーションから現実への方法でこのギャップを埋めました。
ただし、この方法では、把握検出器をトレーニングするときに、明示的または暗黙的にシミュレートされたデータをノイズの多い実際のデータに適応させることになります。カメラ ノイズ内の位置ドリフトや構造的歪みが把握学習に悪影響を及ぼします。
この研究では、R2SGrasp という名前の 6-DoF 掴み検出用の Real-to-Sim フレームワークを提案します。これは、掴み検出器のトレーニングでカメラ ノイズを直接バイパスする、Real-to-Sim の方法でこのギャップを埋めるという重要な洞察を備えています。
推論とリアルタイムのシミュレーションへの適応を通じて。
このリアルからシムへの適応を実現するために、当社の R2SGrasp は、データ レベルでリアル デプス マップのカメラ ノイズを軽減するためのリアルからシムへのデータ修復 (R2SRepairer) と、リアルからシムへの機能エンハンサー (R2SEnhancer) を設計します。
フィーチャレベルで正確にシミュレートされた幾何学的プリミティブを使用して実際のフィーチャを強化します。
フレームワークに一般化機能を持たせるために、把握検出器をトレーニングするための大規模なシミュレートされたデータセットをコスト効率よく構築します。これには、1,440 万の把握アノテーションを含む 64,000 の RGB-D 画像が含まれます。
十分な実験により、R2SGrasp が強力であり、現実からシミュレーションへの視点が効果的であることが示されています。
実際の実験では、R2SGrasp の優れた一般化能力がさらに示されています。
プロジェクトページは https://isee-laboratory.github.io/R2SGrasp から入手できます。

要約(オリジナル)

For 6-DoF grasp detection, simulated data is expandable to train more powerful model, but it faces the challenge of the large gap between simulation and real world. Previous works bridge this gap with a sim-to-real way. However, this way explicitly or implicitly forces the simulated data to adapt to the noisy real data when training grasp detectors, where the positional drift and structural distortion within the camera noise will harm the grasp learning. In this work, we propose a Real-to-Sim framework for 6-DoF Grasp detection, named R2SGrasp, with the key insight of bridging this gap in a real-to-sim way, which directly bypasses the camera noise in grasp detector training through an inference-time real-to-sim adaption. To achieve this real-to-sim adaptation, our R2SGrasp designs the Real-to-Sim Data Repairer (R2SRepairer) to mitigate the camera noise of real depth maps in data-level, and the Real-to-Sim Feature Enhancer (R2SEnhancer) to enhance real features with precise simulated geometric primitives in feature-level. To endow our framework with the generalization ability, we construct a large-scale simulated dataset cost-efficiently to train our grasp detector, which includes 64,000 RGB-D images with 14.4 million grasp annotations. Sufficient experiments show that R2SGrasp is powerful and our real-to-sim perspective is effective. The real-world experiments further show great generalization ability of R2SGrasp. Project page is available on https://isee-laboratory.github.io/R2SGrasp.

arxiv情報

著者 Jia-Feng Cai,Zibo Chen,Xiao-Ming Wu,Jian-Jian Jiang,Yi-Lin Wei,Wei-Shi Zheng
発行日 2024-10-09 03:49:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク