要約
単一の画像から3Dオブジェクトのポーズと形状を回復することは、挑戦的で非常に不適切な問題です。
これは、強力な(自己)閉塞、深さのあいまいさ、広大なクラス内およびクラス間形状の分散、および自然画像の3Dグラウンドトゥルースの欠如によるものです。
既存の方法は合成データセット上の深いネットワークを訓練して3D形状を予測しますが、実際のシナリオに一般化するのに苦労し、ノイズの多い推定値を改良するための明示的なフィードバックループを欠いており、主にピクセルアライメントを明示的に考慮せずにジオメトリに焦点を当てます。
この目的のために、2つの重要な観察結果を作成します。(1)堅牢なソリューションには、検索空間を制限する前に強力なカテゴリ固有の形状を課すモデルが必要であり、(2)基礎モデルがジョイントスペースに2D画像と3D形状を埋め込みました。
どちらも曖昧さの解決に役立ちます。
したがって、3つの重要な革新に基づいて構築された新しい最適化フレームワークであるSDFITを提案します。まず、強力な形状として機能する学習されたモーフ可能な署名距離機能(MSDF)モデルを使用して、形状空間を制約します。
第二に、基礎モデルを使用して、画像機能とMSDFの間にリッチな2D対3D対応を確立します。
第三に、MSDFを画像に合わせて、形状とポーズの両方を繰り返し洗練するフィッティングパイプラインを開発します。
PIX3D、PASCAL3D+、およびコミック画像データセットのSDFITを評価します。
SDFITは、SOTAメソッドと同等のパフォーマンスを発揮しながら、オクルージョンに対する並外れた堅牢性を示し、目に見えない画像の再訓練を必要としません。
したがって、SDFITは、野生に一般化するための新しい洞察を提供し、将来の研究への道を開いています。
コードがリリースされます。
要約(オリジナル)
Recovering 3D object pose and shape from a single image is a challenging and highly ill-posed problem. This is due to strong (self-)occlusions, depth ambiguities, the vast intra- and inter-class shape variance, and lack of 3D ground truth for natural images. While existing methods train deep networks on synthetic datasets to predict 3D shapes, they often struggle to generalize to real-world scenarios, lack an explicit feedback loop for refining noisy estimates, and primarily focus on geometry without explicitly considering pixel alignment. To this end, we make two key observations: (1) a robust solution requires a model that imposes a strong category-specific shape prior to constrain the search space, and (2) foundational models embed 2D images and 3D shapes in joint spaces; both help resolve ambiguities. Hence, we propose SDFit, a novel optimization framework that is built on three key innovations: First, we use a learned morphable signed-distance-function (mSDF) model that acts as a strong shape prior, thus constraining the shape space. Second, we use foundational models to establish rich 2D-to-3D correspondences between image features and the mSDF. Third, we develop a fitting pipeline that iteratively refines both shape and pose, aligning the mSDF to the image. We evaluate SDFit on the Pix3D, Pascal3D+, and COMIC image datasets. SDFit performs on par with SotA methods, while demonstrating exceptional robustness to occlusions and requiring no retraining for unseen images. Therefore, SDFit contributes new insights for generalizing in the wild, paving the way for future research. Code will be released.
arxiv情報
著者 | Dimitrije Antić,Georgios Paschalidis,Shashank Tripathi,Theo Gevers,Sai Kumar Dwivedi,Dimitrios Tzionas |
発行日 | 2025-03-10 14:43:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google