要約
マルチカメラビジュアル SLAM システムのセットアップを容易にし、環境に対する堅牢性を高めることは、ビジョン ロボットの常に焦点の 1 つです。
既存の単眼および両眼視覚 SLAM システムは、FoV が狭く、テクスチャのない環境では脆弱であり、精度が低下し、堅牢性も限られています。
したがって、マルチカメラ SLAM システムは、広い FoV でテクスチャ縮退に対する冗長性を提供できるため、注目を集めています。
しかし、現在のマルチカメラ SLAM システムは、膨大なデータ処理圧力と精巧に設計されたカメラ構成に直面しており、任意に配置されたマルチカメラ システムの推定失敗につながります。
これらの問題に対処するために、我々は、カメラの配置において高い柔軟性を備えたメートルスケールの状態推定を達成できる、任意に配置されたマルチカメラに対する一般的なビジュアルオドメトリを提案する。
具体的には、まず、複数のビデオ ストリームの CPU 処理の負担を軽減するために、学習ベースの特徴抽出および追跡フレームワークを設計します。
次に、カメラ間の厳格な制約を使用して、堅牢な SLAM システム初期化のためのメートル スケールのポーズを推定します。
最後に、SLAM バックエンドでマルチカメラの機能を融合して、堅牢な姿勢推定とオンライン スケールの最適化を実現します。
さらに、マルチカメラ機能により、ポーズ グラフの最適化のためのループ検出が向上します。
KITTI-360 および MultiCamData データセットの実験により、任意に配置されたカメラに対する本手法の堅牢性が検証されます。
他のステレオおよびマルチカメラビジュアル SLAM システムと比較して、私たちの方法はより優れた汎化能力でより高い姿勢推定精度を実現します。
コードとオンライン デモは \url{https://github.com/JunhaoWang615/MCVO} で入手できます。
要約(オリジナル)
Making multi-camera visual SLAM systems easier to set up and more robust to the environment is always one of the focuses of vision robots. Existing monocular and binocular vision SLAM systems have narrow FoV and are fragile in textureless environments with degenerated accuracy and limited robustness. Thus multi-camera SLAM systems are gaining attention because they can provide redundancy for texture degeneration with wide FoV. However, current multi-camera SLAM systems face massive data processing pressure and elaborately designed camera configurations, leading to estimation failures for arbitrarily arranged multi-camera systems. To address these problems, we propose a generic visual odometry for arbitrarily arranged multi-cameras, which can achieve metric-scale state estimation with high flexibility in the cameras’ arrangement. Specifically, we first design a learning-based feature extraction and tracking framework to shift the pressure of CPU processing of multiple video streams. Then we use the rigid constraints between cameras to estimate the metric scale poses for robust SLAM system initialization. Finally, we fuse the features of the multi-cameras in the SLAM back-end to achieve robust pose estimation and online scale optimization. Additionally, multi-camera features help improve the loop detection for pose graph optimization. Experiments on KITTI-360 and MultiCamData datasets validate the robustness of our method over arbitrarily placed cameras. Compared with other stereo and multi-camera visual SLAM systems, our method obtains higher pose estimation accuracy with better generalization ability. Our codes and online demos are available at \url{https://github.com/JunhaoWang615/MCVO}
arxiv情報
著者 | Huai Yu,Junhao Wang,Yao He,Wen Yang,Gui-Song Xia |
発行日 | 2024-12-04 09:13:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google