FSD: Fast Self-Supervised Single RGB-D to Categorical 3D Objects

要約

この研究では、現実世界の 3D ラベル付きデータに依存せずに、3D オブジェクト認識という困難なタスクに取り組みます。
私たちの目標は、単一の RGB-D 画像内のオブジェクトの 3D 形状、サイズ、6D 姿勢を予測し、カテゴリ レベルで動作し、推論中に CAD モデルの必要性を排除することです。
既存の自己教師あり手法はこの分野で進歩を遂げていますが、非エンドツーエンドの処理、異なるオブジェクト カテゴリの個別のモデルへの依存、暗黙的再構成モデ​​ルのトレーニング中の表面抽出の遅さから生じる非効率性に悩まされることがよくあります。
したがって、3D 認識プロセスの速度と現実世界への適用性の両方が妨げられます。
私たちが提案する方法は、合成パフォーマンスを現実世界のドメインに効率的に転送するように設計された多段階トレーニング パイプラインを活用します。
このアプローチは、合成ドメインのトレーニング中に 2D および 3D 教師あり損失を組み合わせ、その後 2 つの追加の学習段階で実世界のデータに 2D 教師あり損失と 3D 自己教師あり損失を組み込むことで実現されます。
この包括的な戦略を採用することで、私たちの手法は前述の制限をうまく克服し、ほぼリアルタイムで実行しながら 6D 姿勢推定の mAP が 16.4% 絶対的に向上し、NOCS テストセットでの既存の自己教師あり 6D 姿勢推定ベースラインを上回ります。
5Hzで。

要約(オリジナル)

In this work, we address the challenging task of 3D object recognition without the reliance on real-world 3D labeled data. Our goal is to predict the 3D shape, size, and 6D pose of objects within a single RGB-D image, operating at the category level and eliminating the need for CAD models during inference. While existing self-supervised methods have made strides in this field, they often suffer from inefficiencies arising from non-end-to-end processing, reliance on separate models for different object categories, and slow surface extraction during the training of implicit reconstruction models; thus hindering both the speed and real-world applicability of the 3D recognition process. Our proposed method leverages a multi-stage training pipeline, designed to efficiently transfer synthetic performance to the real-world domain. This approach is achieved through a combination of 2D and 3D supervised losses during the synthetic domain training, followed by the incorporation of 2D supervised and 3D self-supervised losses on real-world data in two additional learning stages. By adopting this comprehensive strategy, our method successfully overcomes the aforementioned limitations and outperforms existing self-supervised 6D pose and size estimation baselines on the NOCS test-set with a 16.4% absolute improvement in mAP for 6D pose estimation while running in near real-time at 5 Hz.

arxiv情報

著者 Mayank Lunayach,Sergey Zakharov,Dian Chen,Rares Ambrus,Zsolt Kira,Muhammad Zubair Irshad
発行日 2023-10-19 17:59:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク