Improved Real-Time Monocular SLAM Using Semantic Segmentation on Selective Frames


単眼SLAM(Simultaneous Localization and Mapping)は、安価で設置が容易なカメラ1台で実現できるため、先進運転支援システムや自律走行システムで注目されている技術です。従来の単眼SLAMには、位置決めや地図作成の精度を低下させる2つの大きな課題があります。第一に、定位とマッピングにおいてスケールを推定することが困難であること。また、従来の単眼SLAMでは、動体や低視差領域などの不適切なマッピング要因を用いてマッピングを行っている。本論文では、ディープラーニングに基づくセマンティックセグメンテーションを効率的に用いることで、前述の課題を解決する改良型リアルタイム単眼SLAMを提案する。提案手法のリアルタイム実行を実現するために、マッピング処理と並行して、ダウンサンプルしたキーフレームにのみセマンティックセグメンテーションを適用する。また、提案手法では、道路にラベル付けされた3次元点から推定した地表面と実際のカメラの高さを用いて、カメラのポーズと3次元点のスケールを補正する。また,提案手法は,移動物体や低視差領域としてラベル付けされた不適切な角の特徴を除去する.8つのビデオシーケンスを用いた実験により、提案する単眼SLAMシステムは、既存の最先端単眼SLAMシステムおよびステレオSLAMシステムと比較して、それぞれ大幅に向上し、同等の軌跡追跡精度を達成することが実証された。また、提案システムは、既存のセグメンテーション支援単眼SLAMが実現できないのに対し、標準的なGPUをサポートする標準的なCPUで潜在的にリアルタイム追跡を実現することができる。


Monocular simultaneous localization and mapping (SLAM) is emerging in advanced driver assistance systems and autonomous driving, because a single camera is cheap and easy to install. Conventional monocular SLAM has two major challenges leading inaccurate localization and mapping. First, it is challenging to estimate scales in localization and mapping. Second, conventional monocular SLAM uses inappropriate mapping factors such as dynamic objects and low-parallax areas in mapping. This paper proposes an improved real-time monocular SLAM that resolves the aforementioned challenges by efficiently using deep learning-based semantic segmentation. To achieve the real-time execution of the proposed method, we apply semantic segmentation only to downsampled keyframes in parallel with mapping processes. In addition, the proposed method corrects scales of camera poses and three-dimensional (3D) points, using estimated ground plane from road-labeled 3D points and the real camera height. The proposed method also removes inappropriate corner features labeled as moving objects and low parallax areas. Experiments with eight video sequences demonstrate that the proposed monocular SLAM system achieves significantly improved and comparable trajectory tracking accuracy, compared to existing state-of-the-art monocular and stereo SLAM systems, respectively. The proposed system can achieve real-time tracking on a standard CPU potentially with a standard GPU support, whereas existing segmentation-aided monocular SLAM does not.


著者 Jinkyu Lee,Muhyun Back,Sung Soo Hwang,Il Yong Chun
発行日 2022-10-05 14:40:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.CV パーマリンク