Structural Multiplane Image: Bridging Neural View Synthesis and 3D Reconstruction

要約

前面並列 RGBA レイヤーのセットを含むマルチプレーン イメージ (MPI) は、まばらな入力からのビュー合成の効果的かつ効率的な表現です。
しかし、その固定された構造は、特に斜めの角度で画像化された表面の場合、パフォーマンスを制限します。
平面構造が 3D シーンを簡潔に近似する Structural MPI (S-MPI) を紹介します。
幾何学的に忠実な構造を持つ RGBA コンテキストを伝達する S-MPI は、ビュー合成と 3D 再構築を直接橋渡しします。
MPI の重大な制限、つまり、傾斜面からの離散化アーティファクトや冗長レイヤーの乱用を克服できるだけでなく、平面 3D 再構成を取得することもできます。
S-MPI を適用する直感と要求にもかかわらず、RGBA レイヤーとプレーン ポーズの両方の高忠実度近似、マルチビューの一貫性、非平面領域のモデリング、交差するプレーンを使用した効率的なレンダリングなど、大きな課題が生じます。
したがって、セグメンテーションモデルに基づくトランスベースのネットワークを提案します。
対応するマスク、ポーズ、および RGBA コンテキストを使用して、コンパクトで表現力豊かな S-MPI レイヤーを予測します。
非平面領域は、統一されたフレームワークでは特別なケースとして包括的に処理されます。
マルチビューの一貫性は、位置合わせされた座標で完全な 3D シーンをカバーする平面レベルの機能をエンコードするグローバル プロキシ埋め込みを共有することで保証されます。
集中的な実験により、私たちの方法は、以前の最先端のMPIベースのビュー合成方法と平面再構成方法の両方よりも優れていることが示されています。

要約(オリジナル)

The Multiplane Image (MPI), containing a set of fronto-parallel RGBA layers, is an effective and efficient representation for view synthesis from sparse inputs. Yet, its fixed structure limits the performance, especially for surfaces imaged at oblique angles. We introduce the Structural MPI (S-MPI), where the plane structure approximates 3D scenes concisely. Conveying RGBA contexts with geometrically-faithful structures, the S-MPI directly bridges view synthesis and 3D reconstruction. It can not only overcome the critical limitations of MPI, i.e., discretization artifacts from sloped surfaces and abuse of redundant layers, and can also acquire planar 3D reconstruction. Despite the intuition and demand of applying S-MPI, great challenges are introduced, e.g., high-fidelity approximation for both RGBA layers and plane poses, multi-view consistency, non-planar regions modeling, and efficient rendering with intersected planes. Accordingly, we propose a transformer-based network based on a segmentation model. It predicts compact and expressive S-MPI layers with their corresponding masks, poses, and RGBA contexts. Non-planar regions are inclusively handled as a special case in our unified framework. Multi-view consistency is ensured by sharing global proxy embeddings, which encode plane-level features covering the complete 3D scenes with aligned coordinates. Intensive experiments show that our method outperforms both previous state-of-the-art MPI-based view synthesis methods and planar reconstruction methods.

arxiv情報

著者 Mingfang Zhang,Jinglu Wang,Xiao Li,Yifei Huang,Yoichi Sato,Yan Lu
発行日 2023-03-10 14:18:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク