要約
マルチロボット システムによる環境の自律探索は、救助任務、探索活動などに幅広く応用できる重要なタスクです。
現在のアプローチは、多くの場合、貪欲なフロンティア選択またはエンドツーエンドの深層強化学習 (DRL) 手法のいずれかに依存していますが、これらの手法は、近視眼的であること、長期的な影響の見落とし、複雑な問題に起因する収束の困難などの制限によって妨げられることがよくあります。
高次元の学習空間。
これらの課題に対処するために、この文書では、フロンティアベースの手法の低次元アクション空間の効率性と、DRL ベースのアプローチの先見の明と最適性を組み合わせた革新的な統合戦略を紹介します。
私たちは、最初に自由空間のフロンティアを特定し、データ伝送の負担を軽減し、DRL アクション空間の次元を削減するスパース マップ表現を作成する 3 層の計画フレームワークを提案します。
続いて、潜在的なターゲットとロボットの状態を組み込んだマルチグラフ ニューラル ネットワーク (mGNN) を開発し、ポリシーベースの強化学習を利用して類似性を計算し、これにより従来のヒューリスティックなユーティリティ値に取って代わります。
最後に、サブシーケンス検索を通じてローカル ルーティング プランニングを実装します。これにより、徹底的なシーケンスの走査が回避されます。
さまざまなシナリオにわたる広範な検証と包括的なシミュレーション結果により、提案された方法の有効性が実証されています。
ベースラインのアプローチと比較して、私たちのフレームワークは、より少ないタイムステップで環境探査を実現し、データ送信を 30% 以上大幅に削減し、効率とパフォーマンスの点でその優位性を示しています。
要約(オリジナル)
The autonomous exploration of environments by multi-robot systems is a critical task with broad applications in rescue missions, exploration endeavors, and beyond. Current approaches often rely on either greedy frontier selection or end-to-end deep reinforcement learning (DRL) methods, yet these methods are frequently hampered by limitations such as short-sightedness, overlooking long-term implications, and convergence difficulties stemming from the intricate high-dimensional learning space. To address these challenges, this paper introduces an innovative integration strategy that combines the low-dimensional action space efficiency of frontier-based methods with the far-sightedness and optimality of DRL-based approaches. We propose a three-tiered planning framework that first identifies frontiers in free space, creating a sparse map representation that lightens data transmission burdens and reduces the DRL action space’s dimensionality. Subsequently, we develop a multi-graph neural network (mGNN) that incorporates states of potential targets and robots, leveraging policy-based reinforcement learning to compute affinities, thereby superseding traditional heuristic utility values. Lastly, we implement local routing planning through subsequence search, which avoids exhaustive sequence traversal. Extensive validation across diverse scenarios and comprehensive simulation results demonstrate the effectiveness of our proposed method. Compared to baseline approaches, our framework achieves environmental exploration with fewer time steps and a notable reduction of over 30% in data transmission, showcasing its superiority in terms of efficiency and performance.
arxiv情報
著者 | Gengyuan Cai,Luosong Guo,Xiangmao Chang |
発行日 | 2024-10-25 08:20:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google