Vision-based Situational Graphs Exploiting Fiducial Markers for the Integration of Semantic Entities


シチュエーショナルグラフ(S-Graphs)は、SLAM(Simultaneous Localization and Mapping)アプローチによって生成された環境の幾何学モデルと3Dシーングラフを統合し、多層的な共同最適化可能なファクターグラフにする。S-Graphの利点として、幾何学的マップと多様な階層的に組織化された意味的エンティティおよびそれらの位相的関係を1つのグラフ内に結合することにより、より包括的なロボットの状況認識を提供するだけでなく、意味情報を利用することにより、SLAMレベルでのローカライゼーションおよびマッピングの性能向上にもつながる。本論文では、S-Graphs の視覚ベースバージョンを紹介し、低レベルの特徴追跡とマッピングに従来の Ⓐac{VSLAM} システムを使用する。さらに、このフレームワークは、環境とその中のオブジェクトに関する包括的な情報をエンコードするために、フィデューシャルマーカー(可視マーカーと、最近導入した透明または完全に見えないマーカーの両方)の可能性を利用します。マーカーは、環境内の壁やドアなどの構造レベルの意味エンティティを識別し、グローバルリファレンス内の信頼できるポーズとマッピングするのに役立ち、その後、廊下や部屋などの上位レベルのエンティティとの意味のある関連付けを確立する。しかし、意味的実体を含むだけでなく、フィデューシャルマーカーによって課される意味的・幾何学的制約もまた、再構成された地図の品質を向上させ、定位誤差を低減するために利用される。脚式ロボットを用いて収集された実世界のデータセットを用いた実験結果から、我々のフレームワークが、より豊かな多層階層マップを作成することに優れており、同時にロボットの姿勢精度を向上させることが示される。


Situational Graphs (S-Graphs) merge geometric models of the environment generated by Simultaneous Localization and Mapping (SLAM) approaches with 3D scene graphs into a multi-layered jointly optimizable factor graph. As an advantage, S-Graphs not only offer a more comprehensive robotic situational awareness by combining geometric maps with diverse hierarchically organized semantic entities and their topological relationships within one graph, but they also lead to improved performance of localization and mapping on the SLAM level by exploiting semantic information. In this paper, we introduce a vision-based version of S-Graphs where a conventional \ac{VSLAM} system is used for low-level feature tracking and mapping. In addition, the framework exploits the potential of fiducial markers (both visible as well as our recently introduced transparent or fully invisible markers) to encode comprehensive information about environments and the objects within them. The markers aid in identifying and mapping structural-level semantic entities, including walls and doors in the environment, with reliable poses in the global reference, subsequently establishing meaningful associations with higher-level entities, including corridors and rooms. However, in addition to including semantic entities, the semantic and geometric constraints imposed by the fiducial markers are also utilized to improve the reconstructed map’s quality and reduce localization errors. Experimental results on a real-world dataset collected using legged robots show that our framework excels in crafting a richer, multi-layered hierarchical map and enhances robot pose accuracy at the same time.


著者 Ali Tourani,Hriday Bavle,Jose Luis Sanchez-Lopez,Deniz Isinsu Avsar,Rafael Munoz Salinas,Holger Voos
発行日 2024-06-03 14:54:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.RO, I.2.10 パーマリンク