Privileged Reinforcement and Communication Learning for Distributed, Bandwidth-limited Multi-robot Exploration

要約

通信帯域幅は、ロボット間の情報交換が重要であるマルチロボット探査において重要な考慮事項です。
既存の方法は通常、通信スループットの削減を目的としていますが、大量の計算が必要になるか、探索効率が大幅に低下します。
この研究では、探索効率の犠牲を最小限に抑えながら、帯域幅消費の大幅な削減を達成するために、通信と特権強化学習に基づいた深層強化学習フレームワークを提案します。
具体的には、私たちのアプローチにより、ロボットは環境に対する個人の信念 (部分マップ) からの最も顕著な情報を固定サイズのメッセージに埋め込む方法を学習できるようになります。
その後、ロボットは自分自身の信念と受信したメッセージを推論して、冗長な作業を避けながら環境を分散的に探索します。
その際、特権学習と学習された注意メカニズムを採用して、批評家 (教師) ネットワークにグラウンド トゥルース マップの知識を与え、トレーニング中にポリシー (生徒) ネットワークを効果的にガイドします。
関連するベースラインと比較して、私たちのモデルにより、チームは総移動距離をわずか 2.4\% 犠牲にするだけで通信を最大 2 桁削減でき、帯域幅が制限されたシナリオでの効率的な分散マルチロボット探査への道が開かれます。

要約(オリジナル)

Communication bandwidth is an important consideration in multi-robot exploration, where information exchange among robots is critical. While existing methods typically aim to reduce communication throughput, they either require significant computation or significantly compromise exploration efficiency. In this work, we propose a deep reinforcement learning framework based on communication and privileged reinforcement learning to achieve a significant reduction in bandwidth consumption, while minimally sacrificing exploration efficiency. Specifically, our approach allows robots to learn to embed the most salient information from their individual belief (partial map) over the environment into fixed-sized messages. Robots then reason about their own belief as well as received messages to distributedly explore the environment while avoiding redundant work. In doing so, we employ privileged learning and learned attention mechanisms to endow the critic (i.e., teacher) network with ground truth map knowledge to effectively guide the policy (i.e., student) network during training. Compared to relevant baselines, our model allows the team to reduce communication by up to two orders of magnitude, while only sacrificing a marginal 2.4\% in total travel distance, paving the way for efficient, distributed multi-robot exploration in bandwidth-limited scenarios.

arxiv情報

著者 Yixiao Ma,Jingsong Liang,Yuhong Cao,Derek Ming Siang Tan,Guillaume Sartoretti
発行日 2024-07-29 17:34:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク