Towards Localizing Structural Elements: Merging Geometrical Detection with Semantic Verification in RGB-D Data

要約

RGB-D カメラは、シーンの理解、マップの再構築、位置特定などのさまざまなロボット タスクに、豊富で密度の高い視覚情報と空間情報を提供します。
深度情報と視覚情報を統合すると、ロボットによる位置特定と要素マッピングが支援され、3D シーン グラフ生成や Visual Simultaneous Localization and Mapping (VSLAM) などのアプリケーションが進歩します。
このような情報を含む点群データは主にシーンの理解を強化するために使用されますが、豊富なセマンティック情報を取得して表現するという点群データの潜在力の活用はまだ適切に行われていません。
この論文では、純粋な 3D 平面検出のための幾何学的計算を統合し、その後 RGB-D カメラからの点群データを使用して意味カテゴリを検証することにより、壁や地面などの建築コンポーネントの位置を特定するためのリアルタイム パイプラインを紹介します。
並列マルチスレッド アーキテクチャを備えており、環境内で検出されたすべての平面の姿勢と方程式を正確に推定し、パノプティック セグメンテーション検証を使用してマップ構造を形成するものをフィルタリングし、検証された建物コンポーネントのみを保持します。
提案された方法を VSLAM フレームワークに組み込むと、検出された環境主導の意味要素でマップを制約することで、シーンの理解とマップの再構成の精度が向上することが確認されました。
また、これらの検出されたコンポーネントを統合 3D シーン グラフに (再) 関連付けて、幾何学的精度と意味論的な理解の間のギャップを埋めることもできます。
さらに、パイプラインを使用すると、レイアウトに基づいて建物コンポーネント間の関係を識別することで、部屋などの潜在的な高レベルの構造エンティティを検出できます。

要約(オリジナル)

RGB-D cameras supply rich and dense visual and spatial information for various robotics tasks such as scene understanding, map reconstruction, and localization. Integrating depth and visual information can aid robots in localization and element mapping, advancing applications like 3D scene graph generation and Visual Simultaneous Localization and Mapping (VSLAM). While point cloud data containing such information is primarily used for enhanced scene understanding, exploiting their potential to capture and represent rich semantic information has yet to be adequately targeted. This paper presents a real-time pipeline for localizing building components, including wall and ground surfaces, by integrating geometric calculations for pure 3D plane detection followed by validating their semantic category using point cloud data from RGB-D cameras. It has a parallel multi-thread architecture to precisely estimate poses and equations of all the planes detected in the environment, filters the ones forming the map structure using a panoptic segmentation validation, and keeps only the validated building components. Incorporating the proposed method into a VSLAM framework confirmed that constraining the map with the detected environment-driven semantic elements can improve scene understanding and map reconstruction accuracy. It can also ensure (re-)association of these detected components into a unified 3D scene graph, bridging the gap between geometric accuracy and semantic understanding. Additionally, the pipeline allows for the detection of potential higher-level structural entities, such as rooms, by identifying the relationships between building components based on their layout.

arxiv情報

著者 Ali Tourani,Saad Ejaz,Hriday Bavle,Jose Luis Sanchez-Lopez,Holger Voos
発行日 2024-09-10 16:28:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, I.2.10 パーマリンク