Intent-based Deep Reinforcement Learning for Multi-agent Informative Path Planning

要約

マルチエージェント情報経路計画 (MAIPP) では、エージェントは、軌跡に沿って取得した測定値に基づいて、特定のドメインでの潜在的な関心分布 (ガス濃度、光強度、または汚染レベルなど) のグローバル信念マップを集合的に構築する必要があります。
.
彼らは、事前に定義された予算 (経路の長さや作業時間など) 内で得られる情報を最大化するために、新しい領域の分散型探査と既知の関心の高い領域の集合的で綿密な開発のバランスを取るために、経路を頻繁に再計画する必要があります。
このような協力を達成するための一般的なアプローチは、他のエージェントの将来の行動を条件として、エージェントのパスを反応的に計画することに依存しています。
ただし、エージェントの信念は継続的に更新されるため、これらの予測された将来のアクションはエージェントによって実行されるものではない可能性があり、システムにノイズ/不正確な形が導入され、パフォーマンスが低下することがよくあります。
この作業では、MAIPP への分散型深層強化学習 (DRL) アプローチを提案します。これは注意ベースのニューラル ネットワークに依存しており、エージェントは意図 (つまり、中/長期) を明示的に共有することにより、長期的な個人および協調の目的を最適化します。
-個々のポリシーから取得された期間の将来のポジションの分布)を反応的で非同期的な方法で。
つまり、私たちの仕事では、意図の共有により、エージェントは世界のより広い領域を主張/回避することを学ぶことができます。
さらに、私たちのアプローチはこれらの共有された意図よりも学習された注意に依存しているため、エージェントは、不完全な情報が存在する場合でも協力を最大化するために、これらの (不完全な) 予測の有用な部分を認識することを学習できます。
私たちの比較実験は、MAIPP シミュレーションの大規模なセットで、そのバリアントおよび高品質のベースラインと比較して、私たちのアプローチのパフォーマンスを示しています。

要約(オリジナル)

In multi-agent informative path planning (MAIPP), agents must collectively construct a global belief map of an underlying distribution of interest (e.g., gas concentration, light intensity, or pollution levels) over a given domain, based on measurements taken along their trajectory. They must frequently replan their path to balance the distributed exploration of new areas and the collective, meticulous exploitation of known high-interest areas, to maximize the information gained within a predefined budget (e.g., path length or working time). A common approach to achieving such cooperation relies on planning the agents’ paths reactively, conditioned on other agents’ future actions. However, as the agent’s belief is updated continuously, these predicted future actions may not end up being the ones executed by agents, introducing a form of noise/inaccuracy in the system and often decreasing performance. In this work, we propose a decentralized deep reinforcement learning (DRL) approach to MAIPP, which relies on an attention-based neural network, where agents optimize long-term individual and cooperative objectives by explicitly sharing their intent (i.e., medium-/long-term future positions distribution, obtained from their individual policy) in a reactive, asynchronous manner. That is, in our work, intent sharing allows agents to learn to claim/avoid broader areas of the world. Moreover, since our approach relies on learned attention over these shared intents, agents are able to learn to recognize the useful portion(s) of these (imperfect) predictions to maximize cooperation even in the presence of imperfect information. Our comparison experiments demonstrate the performance of our approach compared to its variants and high-quality baselines over a large set of MAIPP simulations.

arxiv情報

著者 Tianze Yang,Yuhong Cao,Guillaume Sartoretti
発行日 2023-03-09 15:50:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク