Is FISHER All You Need in The Multi-AUV Underwater Target Tracking Task?


水中ターゲット追跡タスクを共同で実行するには、複数の自律型水中ビークル (AUV) を採用することが重要です。
最初の段階では、模倣学習 (IL) を利用してポリシーの改善を実現し、オフライン データセットを生成します。
具体的には、敵対的生成アルゴリズムの改良と、ナッシュ均衡条件から導出されたマルチエージェント IL 最適化目標に基づいて、マルチエージェント弁別者、アクター、批評家を導入します。
次に、第 2 段階では、報酬関数ではなく高品質サンプルの将来状態に適合する潜在表現を分析するマルチエージェント独立の一般化意思決定変換器を開発し、さまざまなシナリオに対応できるポリシーをさらに強化します。
複数のシナリオからの広範なシミュレーション実験により、FISHER が強力な安定性、マルチタスクのパフォーマンス、汎化能力を備えていることが実証されました。


It is significant to employ multiple autonomous underwater vehicles (AUVs) to execute the underwater target tracking task collaboratively. However, it’s pretty challenging to meet various prerequisites utilizing traditional control methods. Therefore, we propose an effective two-stage learning from demonstrations training framework, FISHER, to highlight the adaptability of reinforcement learning (RL) methods in the multi-AUV underwater target tracking task, while addressing its limitations such as extensive requirements for environmental interactions and the challenges in designing reward functions. The first stage utilizes imitation learning (IL) to realize policy improvement and generate offline datasets. To be specific, we introduce multi-agent discriminator-actor-critic based on improvements of the generative adversarial IL algorithm and multi-agent IL optimization objective derived from the Nash equilibrium condition. Then in the second stage, we develop multi-agent independent generalized decision transformer, which analyzes the latent representation to match the future states of high-quality samples rather than reward function, attaining further enhanced policies capable of handling various scenarios. Besides, we propose a simulation to simulation demonstration generation procedure to facilitate the generation of expert demonstrations in underwater environments, which capitalizes on traditional control methods and can easily accomplish the domain transfer to obtain demonstrations. Extensive simulation experiments from multiple scenarios showcase that FISHER possesses strong stability, multi-task performance and capability of generalization.


著者 Jingzehua Xu,Guanwen Xie,Ziqi Zhang,Xiangwang Hou,Dongfang Ma,Shuai Zhang,Yong Ren,Dusit Niyato
発行日 2024-12-05 08:24:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク