要約
カテゴリ レベルの 6D ポーズ推定は、特定のカテゴリから見えないオブジェクトのポーズとサイズを予測することを目的としています。
カテゴリ固有の 3D 事前 (つまり、3D テンプレート) を特定のオブジェクト インスタンスに明示的に適応させる事前変形のおかげで、事前ベースの方法は大きな成功を収め、主要な研究の流れになりました。
ただし、カテゴリ固有の事前分布を取得するには、大量の 3D モデルを収集する必要があり、これには労力がかかり、実際にはアクセスできないことがよくあります。
これは、事前ベースの方法を効果的にするために事前が必要かどうかを調査する動機になります。
私たちの経験的研究は、3D 事前分布自体が高性能の功績ではないことを示しています。
キーポイントは、実際には明示的な変形プロセスであり、ワールド空間 3D モデル (正準空間とも呼ばれます) によって管理されたカメラとワールド座標を揃えます。
これらの観察に触発されて、単純な事前のない暗黙的な空間変換ネットワーク、つまり IST-Net を導入して、カメラ空間の特徴を対応するワールド空間の特徴に変換し、3D 事前分布に依存することなく暗黙的な方法でそれらの間の対応を構築します。
さらに、カメラ空間エンハンサーとワールド空間エンハンサーを設計して、それぞれポーズに敏感な情報と幾何学的制約で機能を充実させます。
シンプルではありますが、IST-Net は、REAL275 データセットで最高の推論速度で、最先端のパフォーマンスを達成する最初の事前のない方法になります。
私たちのコードとモデルは公開されます。
要約(オリジナル)
Category-level 6D pose estimation aims to predict the poses and sizes of unseen objects from a specific category. Thanks to prior deformation, which explicitly adapts a category-specific 3D prior (i.e., a 3D template) to a given object instance, prior-based methods attained great success and have become a major research stream. However, obtaining category-specific priors requires collecting a large amount of 3D models, which is labor-consuming and often not accessible in practice. This motivates us to investigate whether priors are necessary to make prior-based methods effective. Our empirical study shows that the 3D prior itself is not the credit to the high performance. The keypoint actually is the explicit deformation process, which aligns camera and world coordinates supervised by world-space 3D models (also called canonical space). Inspired by these observation, we introduce a simple prior-free implicit space transformation network, namely IST-Net, to transform camera-space features to world-space counterparts and build correspondence between them in an implicit manner without relying on 3D priors. Besides, we design camera- and world-space enhancers to enrich the features with pose-sensitive information and geometrical constraints, respectively. Albeit simple, IST-Net becomes the first prior-free method that achieves state-of-the-art performance, with top inference speed on the REAL275 dataset. Our code and models will be publicly available.
arxiv情報
著者 | Jianhui Liu,Yukang Chen,Xiaoqing Ye,Xiaojuan Qi |
発行日 | 2023-03-23 17:48:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google