BUOL: A Bottom-Up Framework with Occupancy-aware Lifting for Panoptic 3D Scene Reconstruction From A Single Image

要約

単一の画像から 3D シーンを理解してモデリングすることは実際的な問題です。
最近の進歩では、単一の画像から 3D 再構成と 3D パノプティック セグメンテーションの両方を実行するパノプティック 3D シーン再構成タスクが提案されています。
大幅な進歩はあったものの、最近の研究では、推定深度に従って 2D インスタンスを 3D ボクセルに埋めるトップダウンのアプローチのみに焦点を当てており、2 つの曖昧さによってパフォーマンスが妨げられています。
(1) インスタンス チャネルのあいまいさ: 各シーンのインスタンスの変数 ID により、ボクセル チャネルを 2D 情報で埋めるときにあいまいさが生じ、次の 3D 改良が混乱します。
(2) ボクセル再構成の曖昧さ: 推定された単一ビュー深度による 2D から 3D へのリフティングは、2D 情報を 3D 領域の表面に伝播するだけであり、正面ビューの表面の背後にある領域の再構成中に曖昧さが生じます。
この論文では、単一の画像からパノラマ 3D シーンを再構成するための 2 つの問題に対処するために、占有を意識したリフティングを備えたボトムアップ フレームワークである BUOL を提案します。
インスタンスチャネルのあいまいさの場合、ボトムアップフレームワークは、任意のインスタンス ID 割り当てではなく、決定論的なセマンティック割り当てに基づいて 2D 情報を 3D ボクセルに持ち上げます。
次に、3D ボクセルが調整され、予測された 2D インスタンスの中心に従って 3D インスタンスにグループ化されます。
ボクセル再構成のあいまいさについては、推定された複数平面の占有率が奥行きとともに活用され、物やものの領域全体が埋められます。
私たちの手法は、合成データセット 3D-Front および現実世界のデータセット Matterport3D において、最先端の手法と比べてパフォーマンスに大きな利点があることを示しています。
コードとモデルは https://github.com/chtsy/buol で入手できます。

要約(オリジナル)

Understanding and modeling the 3D scene from a single image is a practical problem. A recent advance proposes a panoptic 3D scene reconstruction task that performs both 3D reconstruction and 3D panoptic segmentation from a single image. Although having made substantial progress, recent works only focus on top-down approaches that fill 2D instances into 3D voxels according to estimated depth, which hinders their performance by two ambiguities. (1) instance-channel ambiguity: The variable ids of instances in each scene lead to ambiguity during filling voxel channels with 2D information, confusing the following 3D refinement. (2) voxel-reconstruction ambiguity: 2D-to-3D lifting with estimated single view depth only propagates 2D information onto the surface of 3D regions, leading to ambiguity during the reconstruction of regions behind the frontal view surface. In this paper, we propose BUOL, a Bottom-Up framework with Occupancy-aware Lifting to address the two issues for panoptic 3D scene reconstruction from a single image. For instance-channel ambiguity, a bottom-up framework lifts 2D information to 3D voxels based on deterministic semantic assignments rather than arbitrary instance id assignments. The 3D voxels are then refined and grouped into 3D instances according to the predicted 2D instance centers. For voxel-reconstruction ambiguity, the estimated multi-plane occupancy is leveraged together with depth to fill the whole regions of things and stuff. Our method shows a tremendous performance advantage over state-of-the-art methods on synthetic dataset 3D-Front and real-world dataset Matterport3D. Code and models are available in https://github.com/chtsy/buol.

arxiv情報

著者 Tao Chu,Pan Zhang,Qiong Liu,Jiaqi Wang
発行日 2024-01-16 11:53:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク