SABER-6D: Shape Representation Based Implicit Object Pose Estimation

要約

本論文では、与えられたポーズにおける形状表現を学習することで、埋め込み空間における物体の6次元ポーズを学習する、SABERと名付けられた新しいエンコーダ・デコーダ・アーキテクチャを提案する。このモデルは、RGB画像入力から目標ポーズにおける形状表現を行うことで、ポーズを学習することを可能にする。我々は、2次元画像に基づく物体の回転空間の学習に役立つ補助タスクとして形状表現を行う。画像エンコーダは埋め込み空間における回転を予測し、DeepSDFベースのデコーダは与えられたポーズにおけるオブジェクトの形状表現を学習する。我々のアプローチは形状ベースであるため、パイプラインは対称性に関係なくあらゆるタイプの物体に適している。さらに、SABERの学習に必要なのは、物体のCADモデルだけである。我々のパイプラインは合成データベースであり、対称ラベルのない対称オブジェクトも扱うことができるため、追加のラベル付き学習データは不要である。実験評価では、Occlusion-LineMODおよびT-LESSデータセットにおいて、対称オブジェクトと非対称オブジェクトの両方に対して、我々の手法がベンチマークに近い結果を達成した。

要約(オリジナル)

In this paper, we propose a novel encoder-decoder architecture, named SABER, to learn the 6D pose of the object in the embedding space by learning shape representation at a given pose. This model enables us to learn pose by performing shape representation at a target pose from RGB image input. We perform shape representation as an auxiliary task which helps us in learning rotations space for an object based on 2D images. An image encoder predicts the rotation in the embedding space and the DeepSDF based decoder learns to represent the object’s shape at the given pose. As our approach is shape based, the pipeline is suitable for any type of object irrespective of the symmetry. Moreover, we need only a CAD model of the objects to train SABER. Our pipeline is synthetic data based and can also handle symmetric objects without symmetry labels and, thus, no additional labeled training data is needed. The experimental evaluation shows that our method achieves close to benchmark results for both symmetric objects and asymmetric objects on Occlusion-LineMOD, and T-LESS datasets.

arxiv情報

著者 Shishir Reddy Vutukur,Mengkejiergeli Ba,Benjamin Busam,Matthias Kayser,Gurprit Singh
発行日 2024-09-02 13:39:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク