SDFit: 3D Object Pose and Shape by Fitting a Morphable SDF to a Single Image

要約

私たちは、単一の画像から 3D オブジェクトの姿勢と形状を復元することに重点を置いています。
これは、強力な(自己)オクルージョン、深さの曖昧さ、膨大な形状の変動、および自然画像の 3D グラウンド トゥルースの欠如により、非常に困難です。
最近の研究は主に有限のデータセットからの学習に依存しているため、一般化するのに苦労していますが、主に形状自体に焦点を当てており、ピクセルとの位置合わせはほとんど無視されています。
さらに、フィードフォワード推論を実行するため、推定値を調整することはできません。
私たちは、SDFit と呼ばれる新しいフレームワークを使用して、これらの制限に取り組みます。
この目的を達成するために、次の 3 つの重要な観察を行います。 (1) 学習された符号付き距離関数 (SDF) モデルは、事前に強力な変形可能な形状として機能します。
(2) 基本モデルは 2D 画像と 3D 形状を関節空間に埋め込み、(3) 画像から豊富な特徴も推測します。
SDFit はこれらを次のように活用します。
まず、DIT と呼ばれるカテゴリレベルのモーファブル SDF (mSDF) モデルを使用して、3D 形状の仮説を生成します。
この mSDF は、入力イメージに条件付けされた OpenShape の潜在空間をクエリすることによって初期化されます。
次に、画像と mSDF から特徴を抽出して照合することにより、2D から 3D への対応を計算します。
最後に、レンダリングと比較の方法で mSDF を画像に適合させ、推定値を繰り返し調整します。
実世界の画像の Pix3D および Pascal3D+ データセットで SDFit を評価します。
SDFit は、最先端の学習メソッドとほぼ同等のパフォーマンスを発揮しますが、ユニークな点として、再トレーニングは必要ありません。
したがって、SDFit は実際に一般化することが期待されており、将来の研究への道が開かれます。
コードが公開されます

要約(オリジナル)

We focus on recovering 3D object pose and shape from single images. This is highly challenging due to strong (self-)occlusions, depth ambiguities, the enormous shape variance, and lack of 3D ground truth for natural images. Recent work relies mostly on learning from finite datasets, so it struggles generalizing, while it focuses mostly on the shape itself, largely ignoring the alignment with pixels. Moreover, it performs feed-forward inference, so it cannot refine estimates. We tackle these limitations with a novel framework, called SDFit. To this end, we make three key observations: (1) Learned signed-distance-function (SDF) models act as a strong morphable shape prior. (2) Foundational models embed 2D images and 3D shapes in a joint space, and (3) also infer rich features from images. SDFit exploits these as follows. First, it uses a category-level morphable SDF (mSDF) model, called DIT, to generate 3D shape hypotheses. This mSDF is initialized by querying OpenShape’s latent space conditioned on the input image. Then, it computes 2D-to-3D correspondences, by extracting and matching features from the image and mSDF. Last, it fits the mSDF to the image in an render-and-compare fashion, to iteratively refine estimates. We evaluate SDFit on the Pix3D and Pascal3D+ datasets of real-world images. SDFit performs roughly on par with state-of-the-art learned methods, but, uniquely, requires no re-training. Thus, SDFit is promising for generalizing in the wild, paving the way for future research. Code will be released

arxiv情報

著者 Dimitrije Antić,Sai Kumar Dwivedi,Shashank Tripathi,Theo Gevers,Dimitrios Tzionas
発行日 2024-09-24 15:22:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク