Foundations of Spatial Perception for Robotics: Hierarchical Representations and Real-time Systems

要約

3次元空間認識とは、センサデータと事前知識を用いて、リアルタイムで環境の実用的かつ永続的な表現を構築し維持する問題である。ロボット知覚の急速な進歩にもかかわらず、既存のほとんどの方法は、従来のSLAMのように純粋に幾何学的なマップを構築するか、大規模な環境や意味ラベルの大規模な辞書に拡張できないフラットなメトリック-意味マップのどちらかである。本論文の最初の部分は表現に関するもので、空間知覚のためのスケーラブルな表現は、本質的に階層的である必要があることを示すものである。階層的な表現は、保存が効率的であり、木幅の小さい階層的なグラフを導き、証明可能な効率的な推論を可能にする。次に、室内環境のための階層表現の一例である3Dシーングラフを紹介し、その構造と特性について議論する。本論文の第2部では、ロボットが環境を探索する際に、3Dシーングラフを漸進的に構築するアルゴリズムに焦点を当てる。我々のアルゴリズムは、3Dジオメトリ、トポロジー(場所を部屋にクラスタリングする)、幾何学的ディープラーニング(ロボットが移動する部屋の種類を分類する等)を組み合わせています。論文の第3部では、長期間の運用中に3Dシーングラフを維持・修正するアルゴリズムに焦点を当てる。ループ閉鎖検出のための階層的記述子を提案し、3Dシーングラフ最適化問題を解くことによって、ループ閉鎖に対応してシーングラフを修正する方法について説明する。最後に、提案した知覚アルゴリズムを、視覚・慣性データからリアルタイムに3Dシーングラフを構築するリアルタイム空間知覚システムHydraに統合することで、本論文の結論を得る。Hydraの性能は、Clearpath社のJackalロボットとUnitree社のA1ロボットによって収集されたフォトリアリスティックシミュレーションと実データで紹介される。Hydraのオープンソース実装を https://github.com/MIT-SPARK/Hydra で公開します。

要約(オリジナル)

3D spatial perception is the problem of building and maintaining an actionable and persistent representation of the environment in real-time using sensor data and prior knowledge. Despite the fast-paced progress in robot perception, most existing methods either build purely geometric maps (as in traditional SLAM) or flat metric-semantic maps that do not scale to large environments or large dictionaries of semantic labels. The first part of this paper is concerned with representations: we show that scalable representations for spatial perception need to be hierarchical in nature. Hierarchical representations are efficient to store, and lead to layered graphs with small treewidth, which enable provably efficient inference. We then introduce an example of hierarchical representation for indoor environments, namely a 3D scene graph, and discuss its structure and properties. The second part of the paper focuses on algorithms to incrementally construct a 3D scene graph as the robot explores the environment. Our algorithms combine 3D geometry, topology (to cluster the places into rooms), and geometric deep learning (e.g., to classify the type of rooms the robot is moving across). The third part of the paper focuses on algorithms to maintain and correct 3D scene graphs during long-term operation. We propose hierarchical descriptors for loop closure detection and describe how to correct a scene graph in response to loop closures, by solving a 3D scene graph optimization problem. We conclude the paper by combining the proposed perception algorithms into Hydra, a real-time spatial perception system that builds a 3D scene graph from visual-inertial data in real-time. We showcase Hydra’s performance in photo-realistic simulations and real data collected by a Clearpath Jackal robots and a Unitree A1 robot. We release an open-source implementation of Hydra at https://github.com/MIT-SPARK/Hydra.

arxiv情報

著者 Nathan Hughes,Yun Chang,Siyi Hu,Rajat Talak,Rumaisa Abdulhai,Jared Strader,Luca Carlone
発行日 2023-05-11 21:54:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク