A Pixel Is Worth More Than One 3D Gaussians in Single-View 3D Reconstruction

要約

単視点画像から3Dシーン表現を学習することは、コンピュータビジョンにおける長年の基本的な問題であり、入力ビューから未見のコンテンツを予測する際の本質的な曖昧さを伴う。最近提案された3Dガウススプラッティング(3DGS)を基礎とするスプラッター画像法は、入力画像のU-Net特徴マップに基づいて各画素に対して単一の3Dガウスを学習することにより、高速な単一画像の新規ビュー合成において有望な進歩を遂げた。しかし、この手法では、入力ビューで観測できないオクルージョン成分を表現するための表現力に限界がある。この問題に対処するため、本論文では、1画素が複数の3次元ガウシアンに値する階層的スプラッタ画像法を提案する。具体的には、各画素は親3Dガウシアンと少数の子3Dガウシアンで表現される。親3Dガウシアンはバニラのスプラッター画像で行われるように学習される。子3Dガウシアンは、親3Dガウシアンの投影画像特徴とターゲットカメラビューの埋め込みを入力とする軽量多層パーセプトロン(MLP)を介して学習されます。親と子の3Dガウシアンは、段階的にエンドツーエンドで学習されます。親ガウシアンの目からの入力画像特徴とターゲットカメラの位置の共同条件により、「見えないものを見る」ために子ガウシアンを割り当てる学習が容易になり、親ガウシアンでは見逃されがちなオクルージョンされた詳細を回復する。 実験では、提案手法をShapeNet-SRNとCO3Dデータセットでテストし、最先端の性能を得た。

要約(オリジナル)

Learning 3D scene representation from a single-view image is a long-standing fundamental problem in computer vision, with the inherent ambiguity in predicting contents unseen from the input view. Built on the recently proposed 3D Gaussian Splatting (3DGS), the Splatter Image method has made promising progress on fast single-image novel view synthesis via learning a single 3D Gaussian for each pixel based on the U-Net feature map of an input image. However, it has limited expressive power to represent occluded components that are not observable in the input view. To address this problem, this paper presents a Hierarchical Splatter Image method in which a pixel is worth more than one 3D Gaussians. Specifically, each pixel is represented by a parent 3D Gaussian and a small number of child 3D Gaussians. Parent 3D Gaussians are learned as done in the vanilla Splatter Image. Child 3D Gaussians are learned via a lightweight Multi-Layer Perceptron (MLP) which takes as input the projected image features of a parent 3D Gaussian and the embedding of a target camera view. Both parent and child 3D Gaussians are learned end-to-end in a stage-wise way. The joint condition of input image features from eyes of the parent Gaussians and the target camera position facilitates learning to allocate child Gaussians to “see the unseen”, recovering the occluded details that are often missed by parent Gaussians. In experiments, the proposed method is tested on the ShapeNet-SRN and CO3D datasets with state-of-the-art performance obtained, especially showing promising capabilities of reconstructing occluded contents in the input view.

arxiv情報

著者 Jianghao Shen,Nan Xue,Tianfu Wu
発行日 2024-06-03 15:13:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク