EnCoMP: Enhanced Covert Maneuver Planning with Adaptive Threat-Aware Visibility Estimation using Offline Reinforcement Learning

要約

複雑な環境で動作する自律ロボットは、潜在的な脅威への曝露を最小限に抑えるために、秘密のナビゲーションのための環境カバーを特定して利用するという重要な課題に直面しています。
私たちは、オフライン強化学習と当社の新しい適応型脅威認識可視性推定 (ATAVE) アルゴリズムを統合した強化されたナビゲーション フレームワークである EnCoMP を提案し、ロボットがさまざまな屋外環境で密かに効率的にナビゲーションできるようにします。
ATAVE は、潜在的な脅威をリアルタイムで継続的に評価して軽減するために設計された動的確率的脅威モデリング技術であり、進化する環境や脅威の状況に適応して秘密裏に移動するロボットの能力を強化します。
さらに、私たちのアプローチは、LiDAR 点群からカバー マップ、潜在的脅威マップ、高さマップ、目標マップを含む高忠実度のマルチマップ表現を生成し、環境の包括的な理解を提供します。
これらのマルチマップは環境に関する詳細な洞察を提供し、戦略的なナビゲーションの決定に役立ちます。
ゴール マップは、ターゲット位置までの相対距離と方向をエンコードし、ロボットのナビゲーションをガイドします。
私たちは、実世界の環境から収集された大規模なデータセットで保守的 Q ラーニング (CQL) モデルをトレーニングし、カバーの利用率を最大化し、脅威への露出を最小限に抑え、効率的なナビゲーションを維持する堅牢なポリシーを学習します。
私たちは、さまざまな地形にわたる広範な実験を示し、物理的な Jackal ロボット上でこの方法の機能を実証します。
これらの実験は、最先端の手法と比較して EnCoMP の優れたパフォーマンスを実証し、95% の成功率、85% のカバー利用率を達成し、脅威への露出を 10.5% に低減するとともに、ナビゲーション効率と堅牢性においてベースラインを大幅に上回っています。

要約(オリジナル)

Autonomous robots operating in complex environments face the critical challenge of identifying and utilizing environmental cover for covert navigation to minimize exposure to potential threats. We propose EnCoMP, an enhanced navigation framework that integrates offline reinforcement learning and our novel Adaptive Threat-Aware Visibility Estimation (ATAVE) algorithm to enable robots to navigate covertly and efficiently in diverse outdoor settings. ATAVE is a dynamic probabilistic threat modeling technique that we designed to continuously assess and mitigate potential threats in real-time, enhancing the robot’s ability to navigate covertly by adapting to evolving environmental and threat conditions. Moreover, our approach generates high-fidelity multi-map representations, including cover maps, potential threat maps, height maps, and goal maps from LiDAR point clouds, providing a comprehensive understanding of the environment. These multi-maps offer detailed environmental insights, helping in strategic navigation decisions. The goal map encodes the relative distance and direction to the target location, guiding the robot’s navigation. We train a Conservative Q-Learning (CQL) model on a large-scale dataset collected from real-world environments, learning a robust policy that maximizes cover utilization, minimizes threat exposure, and maintains efficient navigation. We demonstrate our method’s capabilities on a physical Jackal robot, showing extensive experiments across diverse terrains. These experiments demonstrate EnCoMP’s superior performance compared to state-of-the-art methods, achieving a 95% success rate, 85% cover utilization, and reducing threat exposure to 10.5%, while significantly outperforming baselines in navigation efficiency and robustness.

arxiv情報

著者 Jumman Hossain,Abu-Zaher Faridee,Nirmalya Roy,Jade Freeman,Timothy Gregory,Theron T. Trout
発行日 2024-05-27 21:07:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク