Learning to Communicate and Collaborate in a Competitive Multi-Agent Setup to Clean the Ocean from Macroplastics

要約

タイトル:競争的マルチエージェント設定における学習による海洋のマクロプラスチックからの掃除におけるコミュニケーションと協調の習得

要約:

– 多くの現実世界のアプリケーションにおいて、協調と競争のバランスを見つけることは重要である。
– 本研究は、高いインパクトを持つ問題を背景に、マルチエージェント強化学習(MARL)を用いてこの問題を探究する。
– 海洋におけるプラスチックの蓄積と年々の増加は、海洋の健康やマリーナシステムの多くの側面に修復不能なダメージを与えるため、私たちは既知のプラスチックパッチからマクロプラスチックを減らす方法を見つける必要がある。
– プラスチック回収船を制御する多数のエージェントが自作の環境で動作する。
– グラフニューラルネットワーク(GNN)ベースの通信メカニズムを提案し、エージェントの観察空間を拡大させる。通信メカニズムにより、エージェントはバイナリ信号を使用した通信プロトコルを開発することができる。
– エージェント集合の目標は、可能な限り多くのマクロプラスチックを回収することであるが、エージェントは集団の目的のために報酬を得るだけでなく、個人的なマクロプラスチックの回収量にも報酬を与えられるため、高い個人的なパフォーマンスを維持しながら効果的にコミュニケーションを学ぶ必要がある。
– 通信メカニズムを備えた提案手法を、通信能力を持たないマルチエージェントベースラインと比較した結果、通信が協調を可能にし、集合的なパフォーマンスを大幅に向上させたことが示された。これは、エージェントがコミュニケーションの重要性を学び、協調と競争のバランスを見つけたことを意味している。

要約(オリジナル)

Finding a balance between collaboration and competition is crucial for artificial agents in many real-world applications. We investigate this using a Multi-Agent Reinforcement Learning (MARL) setup on the back of a high-impact problem. The accumulation and yearly growth of plastic in the ocean cause irreparable damage to many aspects of oceanic health and the marina system. To prevent further damage, we need to find ways to reduce macroplastics from known plastic patches in the ocean. Here we propose a Graph Neural Network (GNN) based communication mechanism that increases the agents’ observation space. In our custom environment, agents control a plastic collecting vessel. The communication mechanism enables agents to develop a communication protocol using a binary signal. While the goal of the agent collective is to clean up as much as possible, agents are rewarded for the individual amount of macroplastics collected. Hence agents have to learn to communicate effectively while maintaining high individual performance. We compare our proposed communication mechanism with a multi-agent baseline without the ability to communicate. Results show communication enables collaboration and increases collective performance significantly. This means agents have learned the importance of communication and found a balance between collaboration and competition.

arxiv情報

著者 Philipp Dominic Siedler
発行日 2023-04-12 14:02:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG, cs.MA パーマリンク