The More You See in 2D, the More You Perceive in 3D

要約

人間は、過去の経験に基づいて物体の2次元画像から3次元構造を推測し、より多くの画像を見るにつれて3次元理解を向上させることができる。この動作にヒントを得て、我々は、任意の数の未ポーズ画像から3D再構成と新しいビュー合成を行うシステムであるSAP3Dを紹介する。ある物体の未ポーズ画像が数枚与えられると、テスト時間による微調整によって、あらかじめ訓練されたビュー条件付き拡散モデルを、画像のカメラポーズとともに適応させる。適応された拡散モデルと得られたカメラポーズは、3D再構成と新しいビュー合成のためのインスタンス固有の事前値として利用される。入力画像数が増加するにつれて、本アプローチの性能が向上することを示し、最適化ベースの事前分布を用いない3D再構成手法と、単一画像から3Dへの拡散に基づく手法とのギャップを埋める。実画像と標準的な合成ベンチマークで本システムを実証した。我々のアブレーション研究により、この適応動作がより正確な3D理解の鍵となることが確認された。

要約(オリジナル)

Humans can infer 3D structure from 2D images of an object based on past experience and improve their 3D understanding as they see more images. Inspired by this behavior, we introduce SAP3D, a system for 3D reconstruction and novel view synthesis from an arbitrary number of unposed images. Given a few unposed images of an object, we adapt a pre-trained view-conditioned diffusion model together with the camera poses of the images via test-time fine-tuning. The adapted diffusion model and the obtained camera poses are then utilized as instance-specific priors for 3D reconstruction and novel view synthesis. We show that as the number of input images increases, the performance of our approach improves, bridging the gap between optimization-based prior-less 3D reconstruction methods and single-image-to-3D diffusion-based methods. We demonstrate our system on real images as well as standard synthetic benchmarks. Our ablation studies confirm that this adaption behavior is key for more accurate 3D understanding.

arxiv情報

著者 Xinyang Han,Zelin Gao,Angjoo Kanazawa,Shubham Goel,Yossi Gandelsman
発行日 2024-04-04 17:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク