要約
実世界の物体の立体構造を推測することは、挑戦的でありながら実用的な課題である。この能力をディープモデルに持たせるためには、通常、取得が困難な豊富な3D監視が必要である。しかし、合成データを利用することで、ペアワイズグラウンドトゥルースへのアクセスが容易になるため、その恩恵を受けることができる。しかし、テクスチャや形状、文脈が異なるため、領域間のギャップが大きい。これらの困難を克服するために、我々はVPANと呼ばれる単一視点3D再構成のためのVisio-Perceptual Adaptive Networkを提案する。(1)見る:シングルビューから空間構造を視覚的に取り込み、表現力を高める。(2)投げる:クロスモーダルな意味対比マッピングにより、2D画像の特徴を3D形状プリオールに知覚的に合わせる。(3)成形:埋め込みを目的の多様体に変換し、ターゲットのステレオ形状を再構成する。複数のベンチマークを用いた広範な実験により、シングルビューによる合成データから3次元形状多様体を学習する際の提案手法の有効性と頑健性が実証された。提案手法はPix3DデータセットにおいてIoU 0.292、CD 0.108と最先端技術を凌駕し、Pascal 3D+ではIoU 0.329、CD 0.104に到達することができた。
要約(オリジナル)
Inferring the stereo structure of objects in the real world is a challenging yet practical task. To equip deep models with this ability usually requires abundant 3D supervision which is hard to acquire. It is promising that we can simply benefit from synthetic data, where pairwise ground-truth is easy to access. Nevertheless, the domain gaps are nontrivial considering the variant texture, shape and context. To overcome these difficulties, we propose a Visio-Perceptual Adaptive Network for single-view 3D reconstruction, dubbed VPAN. To generalize the model towards a real scenario, we propose to fulfill several aspects: (1) Look: visually incorporate spatial structure from the single view to enhance the expressiveness of representation; (2) Cast: perceptually align the 2D image features to the 3D shape priors with cross-modal semantic contrastive mapping; (3) Mold: reconstruct stereo-shape of target by transforming embeddings into the desired manifold. Extensive experiments on several benchmarks demonstrate the effectiveness and robustness of the proposed method in learning the 3D shape manifold from synthetic data via a single-view. The proposed method outperforms state-of-the-arts on Pix3D dataset with IoU 0.292 and CD 0.108, and reaches IoU 0.329 and CD 0.104 on Pascal 3D+.
arxiv情報
著者 | Qianyu Feng,Yawei Luo,Keyang Luo,Yi Yang |
発行日 | 2022-06-07 05:44:25+00:00 |
arxivサイト | arxiv_id(pdf) |