DREAM: Decentralized Reinforcement Learning for Exploration and Efficient Energy Management in Multi-Robot Systems

要約

リソースに制約のあるロボットは、多くの場合、エネルギー効率の低下、不適切なタスク割り当てによる計算能力の活用不足、動的環境での堅牢性の欠如などの問題を抱えており、これらすべてがロボットのパフォーマンスに大きな影響を与えます。
この文書では、効率的な探査のためのリソースの割り当てを最適化する包括的なフレームワークである、DREAM – マルチロボット システムにおける探査および効率的なエネルギー管理のための分散強化学習を紹介します。
これは、従来観察されていた従来のヒューリスティックベースのタスク計画を超えて進歩しています。
このフレームワークには、強化学習を使用した動作範囲推定が組み込まれており、不慣れな地形での探索と障害物の回避を実行します。
DREAM はさらに、目標割り当てのためのエネルギー消費モデルを導入し、グラフ ニューラル ネットワークを使用して限られたリソースの下でミッションを確実に完了します。
このアプローチでは、1 つ以上のエージェントに危険を及ぼす目標をランダムに割り当てる従来のアプローチと比較して、マルチロボット システム全体がさらなるミッションのために長期間存続できることも保証されます。
私たちのアプローチはリアルタイムでエージェントに優先順位を付けることに適応しており、動的な環境に対する優れた回復力を示しています。
この堅牢なソリューションはさまざまなシミュレート環境で評価され、さまざまなシナリオにわたる適応性と適用性が実証されました。
ベースライン手法と比較して約 25% の大幅な改善が観察され、リソースに制約のあるロボット工学における将来の研究への道を導きました。

要約(オリジナル)

Resource-constrained robots often suffer from energy inefficiencies, underutilized computational abilities due to inadequate task allocation, and a lack of robustness in dynamic environments, all of which strongly affect their performance. This paper introduces DREAM – Decentralized Reinforcement Learning for Exploration and Efficient Energy Management in Multi-Robot Systems, a comprehensive framework that optimizes the allocation of resources for efficient exploration. It advances beyond conventional heuristic-based task planning as observed conventionally. The framework incorporates Operational Range Estimation using Reinforcement Learning to perform exploration and obstacle avoidance in unfamiliar terrains. DREAM further introduces an Energy Consumption Model for goal allocation, thereby ensuring mission completion under constrained resources using a Graph Neural Network. This approach also ensures that the entire Multi-Robot System can survive for an extended period of time for further missions compared to the conventional approach of randomly allocating goals, which compromises one or more agents. Our approach adapts to prioritizing agents in real-time, showcasing remarkable resilience against dynamic environments. This robust solution was evaluated in various simulated environments, demonstrating adaptability and applicability across diverse scenarios. We observed a substantial improvement of about 25% over the baseline method, leading the way for future research in resource-constrained robotics.

arxiv情報

著者 Dipam Patel,Phu Pham,Kshitij Tiwari,Aniket Bera
発行日 2023-09-29 17:43:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO パーマリンク