PlaneFormers: From Sparse View Planes to 3D Reconstruction

要約

我々は、重なりが限られた画像からシーンの平面的な表面を再構成するためのアプローチを提示する。この再構成タスクは、単一画像の3D再構成、画像間の対応関係、および画像間の相対的なカメラ姿勢を共同で推論する必要があるため、困難である。過去の研究では、最適化ベースのアプローチを提案してきた。本論文では、よりシンプルなアプローチであるPlaneFormerを紹介し、3Dを意識した平面トークンに変換器を適用することで3D推論を行う。我々の実験は、我々のアプローチが先行研究よりも大幅に効果的であること、そして、いくつかの3D特有の設計上の決定がその成功に重要であることを示す。

要約(オリジナル)

We present an approach for the planar surface reconstruction of a scene from images with limited overlap. This reconstruction task is challenging since it requires jointly reasoning about single image 3D reconstruction, correspondence between images, and the relative camera pose between images. Past work has proposed optimization-based approaches. We introduce a simpler approach, the PlaneFormer, that uses a transformer applied to 3D-aware plane tokens to perform 3D reasoning. Our experiments show that our approach is substantially more effective than prior work, and that several 3D-specific design decisions are crucial for its success.

arxiv情報

著者 Samir Agarwala,Linyi Jin,Chris Rockwell,David F. Fouhey
発行日 2022-08-08 17:58:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク