SemanticSLAM: Learning based Semantic Map Construction and Robust Camera Localization

要約

Visual Simultaneous Localization and Mapping (VSLAM) の現在の技術は、連続するシーンの画像特徴を比較することによってカメラの変位を推定します。
これらのアルゴリズムはシーンの連続性に依存するため、頻繁なカメラ入力が必要になります。
ただし、画像を頻繁に処理すると、大量のメモリ使用量と計算オーバーヘッドが発生する可能性があります。
この研究では、RGB-D センサーから抽出されたセマンティック特徴を利用するエンドツーエンドの視覚慣性オドメトリ システムである SemanticSLAM を紹介します。
このアプローチにより、環境のセマンティック マップの作成が可能になり、信頼性の高いカメラの位置特定が保証されます。
SemanticSLAM はシーンに依存しないため、さまざまな環境に合わせて再トレーニングする必要がありません。
事前知識がなくても、カメラ入力がまれな場合でも屋内設定で効果的に動作します。
SemanticSLAM の強みは、セマンティック マップを段階的に改良し、姿勢推定を改善する能力にあります。
これは、マップ構築中にエラーを修正するように訓練された畳み込み長期短期記憶 (ConvLSTM) ネットワークによって実現されます。
既存の VSLAM アルゴリズムと比較して、SemanticSLAM は姿勢推定を 17% 改善します。
結果として得られるセマンティック マップは、環境に関する解釈可能な情報を提供し、経路計画、障害物回避、ロボット ナビゲーションなどのさまざまな下流タスクに簡単に適用できます。
コードは https://github.com/Leomingyangli/SemanticSLAM で公開されます。

要約(オリジナル)

Current techniques in Visual Simultaneous Localization and Mapping (VSLAM) estimate camera displacement by comparing image features of consecutive scenes. These algorithms depend on scene continuity, hence requires frequent camera inputs. However, processing images frequently can lead to significant memory usage and computation overhead. In this study, we introduce SemanticSLAM, an end-to-end visual-inertial odometry system that utilizes semantic features extracted from an RGB-D sensor. This approach enables the creation of a semantic map of the environment and ensures reliable camera localization. SemanticSLAM is scene-agnostic, which means it doesn’t require retraining for different environments. It operates effectively in indoor settings, even with infrequent camera input, without prior knowledge. The strength of SemanticSLAM lies in its ability to gradually refine the semantic map and improve pose estimation. This is achieved by a convolutional long-short-term-memory (ConvLSTM) network, trained to correct errors during map construction. Compared to existing VSLAM algorithms, SemanticSLAM improves pose estimation by 17%. The resulting semantic map provides interpretable information about the environment and can be easily applied to various downstream tasks, such as path planning, obstacle avoidance, and robot navigation. The code will be publicly available at https://github.com/Leomingyangli/SemanticSLAM

arxiv情報

著者 Mingyang Li,Yue Ma,Qinru Qiu
発行日 2024-01-23 20:02:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク