3D-Aware Object Localization using Gaussian Implicit Occupancy Function

要約

画像内のターゲット オブジェクトの位置を自動的に特定することは、多くのコンピューター ビジョン アプリケーションにとって重要です。
2D オブジェクトを表現するために、楕円ラベルが軸に揃えられた境界ボックスの有望な代替手段として最近認識されました。
この論文では、2D ターゲット位置特定のための、オブジェクトの 3D 楕円体近似の投影である 3D 対応の楕円ラベル \textit{i.e.} についてさらに検討します。
実際、投影された楕円は、従来の 3D に依存しない境界ボックス ラベルよりも、オブジェクトのジオメトリと姿勢 (3D 認識) に関するより多くの幾何学的情報を伝えます。
さらに、このような一般的な 3D 楕円体モデルにより、既知のターゲットから大まかに既知のターゲットを近似することができます。
次に、楕円回帰を新たに検討し、不連続な幾何学的楕円パラメータを、画像内のオブジェクト占有を符号化する暗黙的なガウス分布のパラメータに置き換えることを提案します。
モデルは、統計的損失関数を使用して、画像ピクセルにわたるこの二変量ガウス分布の値を回帰するようにトレーニングされます。
分布パラメータを抽出するために、新しいトレーニング不可能な微分可能層 E-DSNT を導入します。
また、ターゲットと相対姿勢ラベルの粗い次元のみを使用して、一貫した 3D 対応のガウス占有パラメータを容易に生成する方法についても説明します。
仮説を検証するために、3 つの既存の宇宙船姿勢推定データセットを 3D 対応のガウス占有ラベルで拡張します。
ラベルとソース コードは、https://cvi2.uni.lu/3d-aware-obj-loc/ から一般にアクセスできます。

要約(オリジナル)

To automatically localize a target object in an image is crucial for many computer vision applications. To represent the 2D object, ellipse labels have recently been identified as a promising alternative to axis-aligned bounding boxes. This paper further considers 3D-aware ellipse labels, \textit{i.e.}, ellipses which are projections of a 3D ellipsoidal approximation of the object, for 2D target localization. Indeed, projected ellipses carry more geometric information about the object geometry and pose (3D awareness) than traditional 3D-agnostic bounding box labels. Moreover, such a generic 3D ellipsoidal model allows for approximating known to coarsely known targets. We then propose to have a new look at ellipse regression and replace the discontinuous geometric ellipse parameters with the parameters of an implicit Gaussian distribution encoding object occupancy in the image. The models are trained to regress the values of this bivariate Gaussian distribution over the image pixels using a statistical loss function. We introduce a novel non-trainable differentiable layer, E-DSNT, to extract the distribution parameters. Also, we describe how to readily generate consistent 3D-aware Gaussian occupancy parameters using only coarse dimensions of the target and relative pose labels. We extend three existing spacecraft pose estimation datasets with 3D-aware Gaussian occupancy labels to validate our hypothesis. Labels and source code are publicly accessible here: https://cvi2.uni.lu/3d-aware-obj-loc/.

arxiv情報

著者 Vincent Gaudillière,Leo Pauly,Arunkumar Rathinam,Albert Garcia Sanchez,Mohamed Adel Musallam,Djamila Aouada
発行日 2023-08-02 14:21:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク