Adaptive Target Localization under Uncertainty using Multi-Agent Deep Reinforcement Learning with Knowledge Transfer


ターゲットの位置特定は、複数のセンシング エージェントが通信し、連携してセンサーの読み取り値に基づいてターゲットの位置を特定する機密性の高いアプリケーションでは重要なタスクです。
既存のアプローチでは、ターゲットの位置特定に取り組むためのマルチエージェント深層強化学習 (MADRL) の使用が調査されていました。
これらの欠点に対処するために、この研究では、不確実な環境でターゲットの位置を特定するための新しい MADRL ベースの方法を提案します。
提案された MADRL 手法は、近接ポリシー最適化を採用して、センシング エージェントの意思決定を最適化します。これは、畳み込みニューラル ネットワークを使用したアクター – クリティカル構造の形式で表されます。
MADRL メソッドは、エリア内でターゲットを検索し、その存在を検出し、到達可能性を判断するためにエージェントの移動性を制御する 3 つのアクションの次元をカバーします。
転移学習の概念を使用する深層学習モデルは、MADRL モデルからの知識に基づいて構築され、ターゲットの場所に到達できない場合にその場所を正確に推定します。その結果、モデル間で表現が共有されるため、学習が高速化され、計算の複雑さが軽減されます。


Target localization is a critical task in sensitive applications, where multiple sensing agents communicate and collaborate to identify the target location based on sensor readings. Existing approaches investigated the use of Multi-Agent Deep Reinforcement Learning (MADRL) to tackle target localization. Nevertheless, these methods do not consider practical uncertainties, like false alarms when the target does not exist or when it is unreachable due to environmental complexities. To address these drawbacks, this work proposes a novel MADRL-based method for target localization in uncertain environments. The proposed MADRL method employs Proximal Policy Optimization to optimize the decision-making of sensing agents, which is represented in the form of an actor-critic structure using Convolutional Neural Networks. The observations of the agents are designed in an optimized manner to capture essential information in the environment, and a team-based reward functions is proposed to produce cooperative agents. The MADRL method covers three action dimensionalities that control the agents’ mobility to search the area for the target, detect its existence, and determine its reachability. Using the concept of Transfer Learning, a Deep Learning model builds on the knowledge from the MADRL model to accurately estimating the target location if it is unreachable, resulting in shared representations between the models for faster learning and lower computational complexity. Collectively, the final combined model is capable of searching for the target, determining its existence and reachability, and estimating its location accurately. The proposed method is tested using a radioactive target localization environment and benchmarked against existing methods, showing its efficacy.


著者 Ahmed Alagha,Rabeb Mizouni,Shakti Singh,Jamal Bentahar,Hadi Otrok
発行日 2025-01-19 02:58:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク