要約
単一の RGB 画像からオブジェクトの 3D 形状を再構築することは、コンピューター ビジョンにおける長年にわたる非常に困難な問題です。
この論文では、条件付きノイズ除去拡散プロセスを介してまばらな点群を生成する、単一画像の 3D 再構成のための新しい方法を提案します。
私たちの方法は、単一の RGB 画像とそのカメラ ポーズを入力として取り、最初に 3 次元ガウス分布からランダムにサンプリングされた 3D ポイントのセットをオブジェクトの形状に徐々にノイズ除去します。
私たちの方法の鍵は、投影調整と呼ばれる幾何学的に一貫した調整プロセスです。拡散プロセスの各ステップで、特定のカメラポーズから部分的にノイズ除去された点群にローカル画像の特徴を投影します。
このプロジェクション コンディショニング プロセスにより、入力画像とよく一致する高解像度のスパース ジオメトリを生成でき、さらに形状再構築後にポイント カラーを予測するために使用できます。
さらに、拡散プロセスの確率論的性質により、私たちの方法は当然、単一の入力画像と一致する複数の異なる形状を生成できます。
以前の研究とは対照的に、私たちのアプローチは合成ベンチマークでうまく機能するだけでなく、複雑な現実世界のデータで大きな質的改善をもたらします。
要約(オリジナル)
Reconstructing the 3D shape of an object from a single RGB image is a long-standing and highly challenging problem in computer vision. In this paper, we propose a novel method for single-image 3D reconstruction which generates a sparse point cloud via a conditional denoising diffusion process. Our method takes as input a single RGB image along with its camera pose and gradually denoises a set of 3D points, whose positions are initially sampled randomly from a three-dimensional Gaussian distribution, into the shape of an object. The key to our method is a geometrically-consistent conditioning process which we call projection conditioning: at each step in the diffusion process, we project local image features onto the partially-denoised point cloud from the given camera pose. This projection conditioning process enables us to generate high-resolution sparse geometries that are well-aligned with the input image, and can additionally be used to predict point colors after shape reconstruction. Moreover, due to the probabilistic nature of the diffusion process, our method is naturally capable of generating multiple different shapes consistent with a single input image. In contrast to prior work, our approach not only performs well on synthetic benchmarks, but also gives large qualitative improvements on complex real-world data.
arxiv情報
著者 | Luke Melas-Kyriazi,Christian Rupprecht,Andrea Vedaldi |
発行日 | 2023-02-21 13:37:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google