O^2-Recon: Completing 3D Reconstruction of Occluded Objects in the Scene with a Pre-trained 2D Diffusion Model

要約

オクルージョンは、RGB-D ビデオからの 3D 再構築における一般的な問題であり、多くの場合、オブジェクトの完全な再構築を妨げ、継続的な問題を引き起こします。
この論文では、オブジェクトの隠れた部分の完全な表面を再構築するための、2D 拡散ベースのインペイント モデルを活用した新しいフレームワークを提案します。
具体的には、事前トレーニングされた拡散モデルを利用して、2D 画像の隠れた領域を塗りつぶします。
次に、これらのインペイントされた画像を使用して、3D 再構成用の各インスタンスのニューラル暗黙的サーフェス表現を最適化します。
このプロセスに必要なインペイント マスクの作成は難しいため、高品質のマスクを生成するために人間の関与をほとんど含まない人間参加戦略を採用しています。
さらに、ビデオは通常、限られた視点から撮影されるため、オブジェクトの一部が完全に隠れてしまう可能性があります。
これらの目に見えない領域を確実に回復するために、符号付き距離フィールドを予測するためのカスケード ネットワーク アーキテクチャを開発し、位置エンコーディングのさまざまな周波数帯域を利用して全体の滑らかさを維持します。
一般的に使用されるレンダリング損失、Eikonal 損失、シルエット損失に加えて、CLIP ベースのセマンティック一貫性損失を採用して、目に見えないカメラ アングルからサーフェスをガイドします。
ScanNet シーンの実験では、私たちが提案したフレームワークが、シーン レベルの RGB-D ビデオからのオブジェクト レベルの再構築において最先端の精度と完全性を達成していることが示されています。

要約(オリジナル)

Occlusion is a common issue in 3D reconstruction from RGB-D videos, often blocking the complete reconstruction of objects and presenting an ongoing problem. In this paper, we propose a novel framework, empowered by a 2D diffusion-based in-painting model, to reconstruct complete surfaces for the hidden parts of objects. Specifically, we utilize a pre-trained diffusion model to fill in the hidden areas of 2D images. Then we use these in-painted images to optimize a neural implicit surface representation for each instance for 3D reconstruction. Since creating the in-painting masks needed for this process is tricky, we adopt a human-in-the-loop strategy that involves very little human engagement to generate high-quality masks. Moreover, some parts of objects can be totally hidden because the videos are usually shot from limited perspectives. To ensure recovering these invisible areas, we develop a cascaded network architecture for predicting signed distance field, making use of different frequency bands of positional encoding and maintaining overall smoothness. Besides the commonly used rendering loss, Eikonal loss, and silhouette loss, we adopt a CLIP-based semantic consistency loss to guide the surface from unseen camera angles. Experiments on ScanNet scenes show that our proposed framework achieves state-of-the-art accuracy and completeness in object-level reconstruction from scene-level RGB-D videos.

arxiv情報

著者 Yubin Hu,Sheng Ye,Wang Zhao,Matthieu Lin,Yuze He,Yu-Hui Wen,Ying He,Yong-Jin Liu
発行日 2023-08-18 14:38:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク