要約
本論文は、プラスチック廃棄物を発見し収集するための、自律型地上走行車の異種フリートによる情報的経路計画のための、モデルフリーの深層強化学習フレームワークを提示する。本システムは、スカウトとクリーナーという2つの車両チームを採用している。これらのチーム間の協調は深層強化アプローチによって達成され、エージェントが清掃効率を最大化する戦略を学習することを可能にする。主な目的は、スカウト・チームが最新の汚染モデルを提供し、クリーナー・チームがこのモデルに従って可能な限り多くの廃棄物を回収することである。この戦略により、調整された報酬関数に支えられたチーム間の協力を通じて、船団効率を最適化する異種チームが形成される。2つの異なるシナリオ(1つは高い凸度、もう1つは狭い通路と困難なアクセス)において、提案アルゴリズムの異なる訓練を他の最先端のヒューリスティックと比較する。得られた結果によれば、深層強化学習に基づくアルゴリズムは、他のベンチマークヒューリスティックを凌駕し、優れた適応性を示すことが実証された。さらに、貪欲な行動による訓練は、特に複雑なレイアウトのシナリオにおいて、性能をさらに向上させる。
要約(オリジナル)
This paper presents a model-free deep reinforcement learning framework for informative path planning with heterogeneous fleets of autonomous surface vehicles to locate and collect plastic waste. The system employs two teams of vehicles: scouts and cleaners. Coordination between these teams is achieved through a deep reinforcement approach, allowing agents to learn strategies to maximize cleaning efficiency. The primary objective is for the scout team to provide an up-to-date contamination model, while the cleaner team collects as much waste as possible following this model. This strategy leads to heterogeneous teams that optimize fleet efficiency through inter-team cooperation supported by a tailored reward function. Different trainings of the proposed algorithm are compared with other state-of-the-art heuristics in two distinct scenarios, one with high convexity and another with narrow corridors and challenging access. According to the obtained results, it is demonstrated that deep reinforcement learning based algorithms outperform other benchmark heuristics, exhibiting superior adaptability. In addition, training with greedy actions further enhances performance, particularly in scenarios with intricate layouts.
arxiv情報
著者 | Alejandro Mendoza Barrionuevo,Samuel Yanes Luis,Daniel Gutiérrez Reina,Sergio L. Toral Marín |
発行日 | 2024-12-03 09:32:02+00:00 |
arxivサイト | arxiv_id(pdf) |