要約
安全なナビゲーションは、危険な環境で動作する自律システムに不可欠です。
従来の計画方法は、長老のタスクで優れていますが、固定距離メトリックを備えた事前定義されたグラフに依存しています。
対照的に、安全な補強学習(RL)は、手動ヒューリスティックに頼ることなく複雑な行動を学ぶことができますが、特に目標を条件付けしたマルチエージェントシナリオでは、長期のタスクを解決できません。
この論文では、計画と安全なRLの両方の強度を統合する新しい方法を紹介します。
私たちの方法は、ゴールコンディショニングRLと安全なRLを活用して、自動化された自己トレーニングアルゴリズムを介して学習バリュー関数を使用して累積距離と安全レベルを同時に推定しながら、ナビゲーションのためのゴールコンディショニングポリシーを学習します。
リプレイバッファーから状態を備えたグラフを構築することにより、メソッドは安全でないエッジを剪定し、エージェントが目標を達成するまで追跡するウェイポイントベースの計画を生成し、拡張距離でより速く、より安全なルートのバランスをとります。
この統合された高レベルのグラフと共有された低レベルの目標条件付けされた安全なRLポリシーを利用して、このアプローチを拡張して、マルチエージェントの安全なナビゲーション問題に対処します。
特に、競合ベースの検索(CBS)を活用して、複数のエージェント向けのウェイポイントベースの計画を作成し、拡張視野で安全なナビゲーションを可能にします。
この統合により、マルチエージェントシナリオでの目標調整された安全なRLのスケーラビリティが向上し、エージェント間の効率的な調整が可能になります。
最先端のベースラインに対する広範なベンチマークは、複雑で危険な環境で複数のエージェントの距離目標を安全に達成する際の方法の有効性を示しています。
私たちのコードは、将来の研究をサポートするためにリリースされます。
要約(オリジナル)
Safe navigation is essential for autonomous systems operating in hazardous environments. Traditional planning methods excel at long-horizon tasks but rely on a predefined graph with fixed distance metrics. In contrast, safe Reinforcement Learning (RL) can learn complex behaviors without relying on manual heuristics but fails to solve long-horizon tasks, particularly in goal-conditioned and multi-agent scenarios. In this paper, we introduce a novel method that integrates the strengths of both planning and safe RL. Our method leverages goal-conditioned RL and safe RL to learn a goal-conditioned policy for navigation while concurrently estimating cumulative distance and safety levels using learned value functions via an automated self-training algorithm. By constructing a graph with states from the replay buffer, our method prunes unsafe edges and generates a waypoint-based plan that the agent follows until reaching its goal, effectively balancing faster and safer routes over extended distances. Utilizing this unified high-level graph and a shared low-level goal-conditioned safe RL policy, we extend this approach to address the multi-agent safe navigation problem. In particular, we leverage Conflict-Based Search (CBS) to create waypoint-based plans for multiple agents allowing for their safe navigation over extended horizons. This integration enhances the scalability of goal-conditioned safe RL in multi-agent scenarios, enabling efficient coordination among agents. Extensive benchmarking against state-of-the-art baselines demonstrates the effectiveness of our method in achieving distance goals safely for multiple agents in complex and hazardous environments. Our code will be released to support future research.
arxiv情報
著者 | Meng Feng,Viraj Parimi,Brian Williams |
発行日 | 2025-02-25 03:38:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google