要約
この論文は、RGB-D 把握検出のシミュレートとリアルの問題に焦点を当て、それをドメイン適応問題として定式化します。
このケースでは、RGB と深度データのハイブリッド ドメイン ギャップと不十分なマルチモーダル特徴の調整に対処するためのグローバルからローカルへの方法を紹介します。
まず、RGB および深度ネットワークの堅牢な初期化を実現するために、自己監視型回転事前トレーニング戦略が採用されています。
次に、RGB および深度画像のシーン特徴に対する個別のグローバル ドメイン分類器と、2 つのモダリティの把握特徴に特に機能するローカル ドメイン分類器を備えたグローバルからローカルへの位置合わせパイプラインを提案します。
特に、我々は把握プロトタイプ適応モジュールを提案します。これは、トレーニング プロセス全体を通じてシミュレーションと現実世界のシナリオから把握プロトタイプを動的に更新して照合することにより、きめの細かい局所特徴の位置合わせを容易にすることを目的としています。
このような設計により、提案された方法はドメインのシフトを大幅に削減し、一貫したパフォーマンスの向上につながります。
GraspNet-Planar ベンチマークと物理環境で広範な実験が行われ、私たちの手法の有効性を示す優れた結果が得られました。
要約(オリジナル)
This paper focuses on the sim-to-real issue of RGB-D grasp detection and formulates it as a domain adaptation problem. In this case, we present a global-to-local method to address hybrid domain gaps in RGB and depth data and insufficient multi-modal feature alignment. First, a self-supervised rotation pre-training strategy is adopted to deliver robust initialization for RGB and depth networks. We then propose a global-to-local alignment pipeline with individual global domain classifiers for scene features of RGB and depth images as well as a local one specifically working for grasp features in the two modalities. In particular, we propose a grasp prototype adaptation module, which aims to facilitate fine-grained local feature alignment by dynamically updating and matching the grasp prototypes from the simulation and real-world scenarios throughout the training process. Due to such designs, the proposed method substantially reduces the domain shift and thus leads to consistent performance improvements. Extensive experiments are conducted on the GraspNet-Planar benchmark and physical environment, and superior results are achieved which demonstrate the effectiveness of our method.
arxiv情報
著者 | Haoxiang Ma,Ran Qin,Modi shi,Boyang Gao,Di Huang |
発行日 | 2024-03-18 06:42:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google