Intent-based Deep Reinforcement Learning for Multi-agent Informative Path Planning

要約

マルチエージェント情報経路計画 (MAIPP) では、エージェントは、その軌道に沿って取得された測定値に基づいて、特定の領域にわたる関心の基礎となる分布 (ガス濃度、光の強度、汚染レベルなど) のグローバル ビリーフ マップを集合的に構築する必要があります。

事前に定義された予算内で情報獲得を最大化するために、新しい領域の探索と既知の関心の高い領域の活用のバランスをとるために、頻繁に計画を再計画する必要があります。
従来のアプローチは、他のエージェントの予測される将来のアクションを条件とした事後対応の経路計画に依存しています。
ただし、信念は継続的に更新されるため、予測されたアクションが実行されたアクションと一致しない可能性があり、ノイズが発生し、パフォーマンスが低下します。
私たちは、注意ベースのニューラル ネットワークを使用した分散型深層強化学習 (DRL) アプローチを提案します。このアプローチでは、エージェントが意図を共有することで、長期的な個人および共同の目標を最適化します。
自分たちのポリシー。
インテント共有により、エージェントはより広範囲の領域を主張したり回避したりする方法を学習できる一方、注意メカニズムを使用することで不完全な予測の有用な部分を特定できるため、不完全な情報に基づいた場合でも協力を最大限に高めることができます。
私たちの実験では、さまざまな MAIPP シナリオにわたるアプローチ、そのバリアント、および高品質のベースラインのパフォーマンスを比較します。
最後に、現実的な通信制約下での展開に向けて、限られた通信範囲の下でのアプローチの有効性を実証します。

要約(オリジナル)

In multi-agent informative path planning (MAIPP), agents must collectively construct a global belief map of an underlying distribution of interest (e.g., gas concentration, light intensity, or pollution levels) over a given domain, based on measurements taken along their trajectory. They must frequently replan their path to balance the exploration of new areas with the exploitation of known high-interest areas, to maximize information gain within a predefined budget. Traditional approaches rely on reactive path planning conditioned on other agents’ predicted future actions. However, as the belief is continuously updated, the predicted actions may not match the executed actions, introducing noise and reducing performance. We propose a decentralized, deep reinforcement learning (DRL) approach using an attention-based neural network, where agents optimize long-term individual and cooperative objectives by sharing their intent, represented as a distribution of medium-/long-term future positions obtained from their own policy. Intent sharing enables agents to learn to claim or avoid broader areas, while the use of attention mechanisms allows them to identify useful portions of imperfect predictions, maximizing cooperation even based on imperfect information. Our experiments compare the performance of our approach, its variants, and high-quality baselines across various MAIPP scenarios. We finally demonstrate the effectiveness of our approach under limited communication ranges, towards deployments under realistic communication constraints.

arxiv情報

著者 Tianze Yang,Yuhong Cao,Guillaume Sartoretti
発行日 2023-10-24 13:54:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク