Amodal3R: Amodal 3D Reconstruction from Occluded 2D Images

要約

ほとんどの画像ベースの3Dオブジェクトリクストラクターは、実際のシナリオで一般的に発生する閉塞を無視して、オブジェクトが完全に見えると想定しています。
この論文では、部分的な観測から3Dオブジェクトを再構築するように設計された条件付き3D生成モデルであるAmodal3Rを紹介します。
「Foundation」3D生成モデルから開始し、それを拡張して、閉塞されたオブジェクトからもっともらしい3Dジオメトリと外観を回復します。
マスク加重されたマルチヘッドの交差メカニズムを導入し、それに続いて、再構築プロセスを導くために閉塞前priorを明示的に活用する閉塞を意識した注意層を導入します。
合成データのみをトレーニングすることにより、Amodal3rは実際のシーンでオクルージョンが存在する場合でも、完全な3Dオブジェクトを回復することを学ぶことを実証します。
2Dアモーダル完了を個別に実行する既存の方法を大幅に上回り、それに続いて3D再構成を行い、それにより、閉塞性の3D再構成のための新しいベンチマークを確立します。

要約(オリジナル)

Most image-based 3D object reconstructors assume that objects are fully visible, ignoring occlusions that commonly occur in real-world scenarios. In this paper, we introduce Amodal3R, a conditional 3D generative model designed to reconstruct 3D objects from partial observations. We start from a ‘foundation’ 3D generative model and extend it to recover plausible 3D geometry and appearance from occluded objects. We introduce a mask-weighted multi-head cross-attention mechanism followed by an occlusion-aware attention layer that explicitly leverages occlusion priors to guide the reconstruction process. We demonstrate that, by training solely on synthetic data, Amodal3R learns to recover full 3D objects even in the presence of occlusions in real scenes. It substantially outperforms existing methods that independently perform 2D amodal completion followed by 3D reconstruction, thereby establishing a new benchmark for occlusion-aware 3D reconstruction.

arxiv情報

著者 Tianhao Wu,Chuanxia Zheng,Frank Guan,Andrea Vedaldi,Tat-Jen Cham
発行日 2025-03-17 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク