Robust Shape Fitting for 3D Scene Abstraction

要約

人間は世界を単純なパラメトリック モデルの配置として認識し、構築します。
特に、直方体や円柱などの体積プリミティブを使用して人工環境を記述することができます。
これらのプリミティブを推論することは、高レベルの抽象的なシーンの記述を達成するために重要です。
プリミティブベースの抽象化に対するこれまでのアプローチでは、形状パラメータを直接推定し、単純なオブジェクトしか再現できませんでした。
対照的に、我々は、直方体を使用して複雑な現実世界の環境を有意義に抽象化する、プリミティブフィッティングのためのロバストな推定器を提案します。
ニューラル ネットワークによって導かれる RANSAC 推定器は、これらのプリミティブを深度マップに適合させます。
以前に検出されたシーンの部分に基づいてネットワークを条件付けし、それを 1 つずつ解析します。
単一の RGB 画像から直方体を取得するために、深度推定 CNN をエンドツーエンドでさらに最適化します。
ポイントからプリミティブまでの距離を単純に最小化すると、シーンの一部を覆う大きな立方体または偽の立方体が発生します。
したがって、不透明なシーンを正しく処理する、改良されたオクルージョン認識距離メトリックを提案します。
さらに、推論時間を短縮しながら、より節約的なシーンの抽象化を提供するニューラル ネットワーク ベースの直方体ソルバーを紹介します。
提案されたアルゴリズムは、トレーニングのために直方体の注釈などの労働集約的なラベルを必要としません。
NYU Depth v2 データセットの結果は、提案されたアルゴリズムが乱雑な現実世界の 3D シーン レイアウトを首尾よく抽象化することを示しています。

要約(オリジナル)

Humans perceive and construct the world as an arrangement of simple parametric models. In particular, we can often describe man-made environments using volumetric primitives such as cuboids or cylinders. Inferring these primitives is important for attaining high-level, abstract scene descriptions. Previous approaches for primitive-based abstraction estimate shape parameters directly and are only able to reproduce simple objects. In contrast, we propose a robust estimator for primitive fitting, which meaningfully abstracts complex real-world environments using cuboids. A RANSAC estimator guided by a neural network fits these primitives to a depth map. We condition the network on previously detected parts of the scene, parsing it one-by-one. To obtain cuboids from single RGB images, we additionally optimise a depth estimation CNN end-to-end. Naively minimising point-to-primitive distances leads to large or spurious cuboids occluding parts of the scene. We thus propose an improved occlusion-aware distance metric correctly handling opaque scenes. Furthermore, we present a neural network based cuboid solver which provides more parsimonious scene abstractions while also reducing inference time. The proposed algorithm does not require labour-intensive labels, such as cuboid annotations, for training. Results on the NYU Depth v2 dataset demonstrate that the proposed algorithm successfully abstracts cluttered real-world 3D scene layouts.

arxiv情報

著者 Florian Kluger,Eric Brachmann,Michael Ying Yang,Bodo Rosenhahn
発行日 2024-03-15 16:37:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク