QuasiNav: Asymmetric Cost-Aware Navigation Planning with Constrained Quasimetric Reinforcement Learning

要約

構造化されていない屋外環境での自律ナビゲーションは、上り坂と下り坂の移動でエネルギー消費が異なるなど、非対称な移動コストが存在するため、本質的に困難です。
従来の強化学習手法は対称コストを前提としていることが多く、現実世界のシナリオでは最適ではないナビゲーション パスや安全リスクの増加につながる可能性があります。
この論文では、非対称コストを明示的にモデル化し、効率的で安全なナビゲーションをガイドするために準メトリック埋め込みを統合する新しい強化学習フレームワークである QuasiNav を紹介します。
QuasiNav は、ナビゲーション問題を制約付きマルコフ決定プロセス (CMDP) として定式化し、準測定埋め込みを使用して方向に依存するコストを捕捉し、地形をより正確に表現できるようにします。
このアプローチは、制約付きポリシー最適化フレームワーク内での適応的な制約強化と組み合わされて、学習中に安全制約を動的に強制します。
私たちは、起伏のある地形、非対称な丘の横断、方向に依存する地形の横断という 3 つの困難なナビゲーション シナリオにわたって QuasiNav を検証し、シミュレーション環境と現実世界の両方の環境でその有効性を実証しています。
実験結果は、QuasiNav が従来の方法を大幅に上回っており、より高い成功率、エネルギー効率の向上、安全制約の順守の向上を達成していることを示しています。

要約(オリジナル)

Autonomous navigation in unstructured outdoor environments is inherently challenging due to the presence of asymmetric traversal costs, such as varying energy expenditures for uphill versus downhill movement. Traditional reinforcement learning methods often assume symmetric costs, which can lead to suboptimal navigation paths and increased safety risks in real-world scenarios. In this paper, we introduce QuasiNav, a novel reinforcement learning framework that integrates quasimetric embeddings to explicitly model asymmetric costs and guide efficient, safe navigation. QuasiNav formulates the navigation problem as a constrained Markov decision process (CMDP) and employs quasimetric embeddings to capture directionally dependent costs, allowing for a more accurate representation of the terrain. This approach is combined with adaptive constraint tightening within a constrained policy optimization framework to dynamically enforce safety constraints during learning. We validate QuasiNav across three challenging navigation scenarios-undulating terrains, asymmetric hill traversal, and directionally dependent terrain traversal-demonstrating its effectiveness in both simulated and real-world environments. Experimental results show that QuasiNav significantly outperforms conventional methods, achieving higher success rates, improved energy efficiency, and better adherence to safety constraints.

arxiv情報

著者 Jumman Hossain,Abu-Zaher Faridee,Derrik Asher,Jade Freeman,Theron Trout,Timothy Gregory,Nirmalya Roy
発行日 2024-10-22 03:39:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク