Vision-based Situational Graphs Generating Optimizable 3D Scene Representations

要約

3D シーン グラフは、多様な意味エンティティとそれらの間のトポロジ関係を階層的に組織することにより、環境をより効率的に表現します。
一方、基準マーカーは、環境とその中の物体に関する包括的な情報をエンコードするための貴重なメカニズムを提供します。
Visual SLAM (VSLAM) のコンテキストでは、特に再構築されたマップが実用的な意味情報で強化されている場合、これらのマーカーは貴重な意味情報を増強し、意味オブジェクト間の意味のあるつながりを促進することによってマップを強化する可能性があります。
この点に関して、この論文では基準マーカーの可能性を活用して、最適化可能な多層ビジョンベースの状況グラフを生成する階層表現を備えた VSLAM フレームワークを組み込んでいます。
このフレームワークは、基準マーカー マップの組み込みによって強化された低レベルの特徴追跡およびマッピング機能を備えた従来の VSLAM システムで構成されています。
基準マーカーは、環境内の壁やドアを識別するのに役立ち、その後、廊下や部屋などの高レベルのエンティティとの意味のある関連付けを確立します。
実験結果は、さまざまな脚式ロボットを使用して収集された現実世界のデータセットに対して行われ、グラウンド トゥルースとして Light Detection And Ranging (LiDAR) ベースのフレームワーク (S-Graphs) に対してベンチマークが行われます。
その結果、私たちのフレームワークは、環境のより豊かな多層階層マップの作成に優れているだけでなく、最先端の方法論と比較した場合、ロボットの姿勢精度の向上も示しています。

要約(オリジナル)

3D scene graphs offer a more efficient representation of the environment by hierarchically organizing diverse semantic entities and the topological relationships among them. Fiducial markers, on the other hand, offer a valuable mechanism for encoding comprehensive information pertaining to environments and the objects within them. In the context of Visual SLAM (VSLAM), especially when the reconstructed maps are enriched with practical semantic information, these markers have the potential to enhance the map by augmenting valuable semantic information and fostering meaningful connections among the semantic objects. In this regard, this paper exploits the potential of fiducial markers to incorporate a VSLAM framework with hierarchical representations that generates optimizable multi-layered vision-based situational graphs. The framework comprises a conventional VSLAM system with low-level feature tracking and mapping capabilities bolstered by the incorporation of a fiducial marker map. The fiducial markers aid in identifying walls and doors in the environment, subsequently establishing meaningful associations with high-level entities, including corridors and rooms. Experimental results are conducted on a real-world dataset collected using various legged robots and benchmarked against a Light Detection And Ranging (LiDAR)-based framework (S-Graphs) as the ground truth. Consequently, our framework not only excels in crafting a richer, multi-layered hierarchical map of the environment but also shows enhancement in robot pose accuracy when contrasted with state-of-the-art methodologies.

arxiv情報

著者 Ali Tourani,Hriday Bavle,Jose Luis Sanchez-Lopez,Deniz Isinsu Avsar,Rafael Munoz Salinas,Holger Voos
発行日 2023-09-19 09:20:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, I.2.10 パーマリンク