OMEGA: Efficient Occlusion-Aware Navigation for Air-Ground Robot in Dynamic Environments via State Space Model

要約

空地上ロボット (AGR) は、その卓越した機動性と多用途性 (飛行と運転など) により、監視や災害対応に広く使用されています。
現在の AGR ナビゲーション システムは、3D セマンティック占有ネットワークを使用して完全なローカル マッピングのオクルージョンを予測し、次に経路計画のためにユークリッド符号付き距離場 (ESDF) を計算することにより、静的なオクルージョンが発生しやすい環境 (屋内など) で良好に機能します。
ただし、これらのシステムは、知覚ネットワークの低い予測精度とパス プランナーの高い計算オーバーヘッドの制限により、動的で厳しいオクルージョン シーン (群集など) での課題に直面しています。
この論文では、上記の問題に対処するために、Efficient AGR-Planner を備えた OccMamba を含む OMEGA を提案します。
OccMamba は、セマンティック予測と占有予測を独立したブランチに分離し、これらのブランチ内に 2 つのマンバ ブロックを組み込む新しいアーキテクチャを採用しています。
これらのブロックは、線形複雑さを備えた 3D 環境でセマンティックおよび幾何学的特徴を効率的に抽出し、ネットワークが長距離の依存関係を学習して予測精度を向上できるようにします。
意味論的特徴と幾何学的特徴は鳥瞰図 (BEV) 空間内で結合され、特徴融合時の計算オーバーヘッドを最小限に抑えます。
結果として得られるセマンティック占有マップはローカル マップにシームレスに統合され、動的環境のオクルージョン認識を提供します。
当社の AGR-Planner は、このローカル マップを利用し、運動力学的な A* 検索と勾配ベースの軌道最適化を採用して、計画が ESDF フリーでエネルギー効率が高いことを保証します。
広範な実験により、OccMamba が 25.0% mIoU という最先端の 3D セマンティック占有ネットワークを上回るパフォーマンスを示しています。
動的なシーンでのエンドツーエンドのナビゲーション実験により、OMEGA の効率性が検証され、平均計画成功率 96% を達成しました。
コードとビデオは https://jmwang0117.github.io/OMEGA/ で入手できます。

要約(オリジナル)

Air-ground robots (AGRs) are widely used in surveillance and disaster response due to their exceptional mobility and versatility (i.e., flying and driving). Current AGR navigation systems perform well in static occlusion-prone environments (e.g., indoors) by using 3D semantic occupancy networks to predict occlusions for complete local mapping and then computing Euclidean Signed Distance Field (ESDF) for path planning. However, these systems face challenges in dynamic, severe occlusion scenes (e.g., crowds) due to limitations in perception networks’ low prediction accuracy and path planners’ high computation overhead. In this paper, we propose OMEGA, which contains OccMamba with an Efficient AGR-Planner to address the above-mentioned problems. OccMamba adopts a novel architecture that separates semantic and occupancy prediction into independent branches, incorporating two mamba blocks within these branches. These blocks efficiently extract semantic and geometric features in 3D environments with linear complexity, ensuring that the network can learn long-distance dependencies to improve prediction accuracy. Semantic and geometric features are combined within the Bird’s Eye View (BEV) space to minimise computational overhead during feature fusion. The resulting semantic occupancy map is then seamlessly integrated into the local map, providing occlusion awareness of the dynamic environment. Our AGR-Planner utilizes this local map and employs kinodynamic A* search and gradient-based trajectory optimization to guarantee planning is ESDF-free and energy-efficient. Extensive experiments demonstrate that OccMamba outperforms the state-of-the-art 3D semantic occupancy network with 25.0% mIoU. End-to-end navigation experiments in dynamic scenes verify OMEGA’s efficiency, achieving a 96% average planning success rate. Code and video are available at https://jmwang0117.github.io/OMEGA/.

arxiv情報

著者 Junming Wang,Dong Huang,Xiuxian Guan,Zekai Sun,Tianxiang Shen,Fangming Liu,Heming Cui
発行日 2024-08-20 07:50:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク