A Pixel Is Worth More Than One 3D Gaussians in Single-View 3D Reconstruction

要約

シングルビュー画像から 3D シーン表現を学習することは、入力ビューからは見えないコンテンツを予測する際に固有のあいまいさを伴う、コンピューター ビジョンにおける長年の基本的な問題です。
最近提案された 3D ガウス スプラッティング (3DGS) に基づいて構築されたスプラッター イメージ法は、入力画像の U-Net 特徴マップに基づいてピクセルごとに単一の 3D ガウスを学習することで、高速な単一画像の新しいビュー合成において有望な進歩を遂げました。
ただし、入力ビューでは観察できない遮蔽されたコンポーネントを表現する表現力には限界があります。
この問題に対処するために、この論文では、ピクセルが 1 つ以上の 3D ガウス値に相当する階層的スプラッター イメージ法を紹介します。
具体的には、各ピクセルは親 3D ガウスと少数の子 3D ガウスによって表されます。
親 3D ガウスは、バニラ スプラッター イメージで行われたように学習されます。
子 3D ガウスは、親 3D ガウスの投影された画像特徴とターゲット カメラ ビューの埋め込みを入力として受け取る軽量の多層パーセプトロン (MLP) を介して学習されます。
親と子の 3D ガウスは両方とも、段階的な方法でエンドツーエンドで学習されます。
親ガウスの目からの入力画像特徴とターゲット カメラの位置の結合条件により、子ガウスを「見えないものを見る」ように割り当てる学習が容易になり、親ガウスでは見逃しがちな遮蔽された詳細が回復されます。
実験では、提案された方法が ShapeNet-SRN および CO3D データセットでテストされ、最先端のパフォーマンスが得られ、特に入力ビューで遮蔽されたコンテンツを再構築する有望な機能が示されました。

要約(オリジナル)

Learning 3D scene representation from a single-view image is a long-standing fundamental problem in computer vision, with the inherent ambiguity in predicting contents unseen from the input view. Built on the recently proposed 3D Gaussian Splatting (3DGS), the Splatter Image method has made promising progress on fast single-image novel view synthesis via learning a single 3D Gaussian for each pixel based on the U-Net feature map of an input image. However, it has limited expressive power to represent occluded components that are not observable in the input view. To address this problem, this paper presents a Hierarchical Splatter Image method in which a pixel is worth more than one 3D Gaussians. Specifically, each pixel is represented by a parent 3D Gaussian and a small number of child 3D Gaussians. Parent 3D Gaussians are learned as done in the vanilla Splatter Image. Child 3D Gaussians are learned via a lightweight Multi-Layer Perceptron (MLP) which takes as input the projected image features of a parent 3D Gaussian and the embedding of a target camera view. Both parent and child 3D Gaussians are learned end-to-end in a stage-wise way. The joint condition of input image features from eyes of the parent Gaussians and the target camera position facilitates learning to allocate child Gaussians to “see the unseen”, recovering the occluded details that are often missed by parent Gaussians. In experiments, the proposed method is tested on the ShapeNet-SRN and CO3D datasets with state-of-the-art performance obtained, especially showing promising capabilities of reconstructing occluded contents in the input view.

arxiv情報

著者 Jianghao Shen,Xue Nan,Tianfu Wu
発行日 2024-05-31 15:27:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク