Neural Pixel Composition: 3D-4D View Synthesis from Multi-Views

要約

ニューラルピクセルコンポジション(NPC)を紹介します。これは、入力としてマルチビュー観測の離散セットのみを指定した、連続3D-4Dビュー合成の新しいアプローチです。
既存の最先端のアプローチには、高密度のマルチビュー監視と広範な計算予算が必要です。
提案された定式化は、スパースでワイドベースラインのマルチビュー画像で確実に動作し、高解像度(12MP)コンテンツ、つまり既存の方法よりも200〜400倍高速な収束のために数秒から10分以内に効率的にトレーニングできます。
私たちのアプローチにとって重要なのは、2つのコアノベルティです。1)視線に沿った特定の場所と時間のマルチビューから蓄積された色と深度の情報を含むピクセルの表現、および2)多層パーセプトロン(MLP)
これにより、ピクセル位置に提供されるこの豊富な情報の合成により、最終的なカラー出力を取得できます。
多種多様なマルチビューシーケンスを試し、既存のアプローチと比較して、多様で困難な設定でより良い結果を達成します。
最後に、私たちのアプローチは、最先端の3D再構成アプローチであるCOLMAPが苦労している、まばらなマルチビューからの高密度3D再構成を可能にします。

要約(オリジナル)

We present Neural Pixel Composition (NPC), a novel approach for continuous 3D-4D view synthesis given only a discrete set of multi-view observations as input. Existing state-of-the-art approaches require dense multi-view supervision and an extensive computational budget. The proposed formulation reliably operates on sparse and wide-baseline multi-view imagery and can be trained efficiently within a few seconds to 10 minutes for hi-res (12MP) content, i.e., 200-400X faster convergence than existing methods. Crucial to our approach are two core novelties: 1) a representation of a pixel that contains color and depth information accumulated from multi-views for a particular location and time along a line of sight, and 2) a multi-layer perceptron (MLP) that enables the composition of this rich information provided for a pixel location to obtain the final color output. We experiment with a large variety of multi-view sequences, compare to existing approaches, and achieve better results in diverse and challenging settings. Finally, our approach enables dense 3D reconstruction from sparse multi-views, where COLMAP, a state-of-the-art 3D reconstruction approach, struggles.

arxiv情報

著者 Aayush Bansal,Michael Zollhoefer
発行日 2022-07-21 17:58:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク