要約
水中ターゲット追跡タスクを共同で実行するには、複数の自律型水中ビークル (AUV) を採用することが重要です。
ただし、従来の制御方法を利用してさまざまな前提条件を満たすのはかなり困難です。
したがって、我々は、マルチAUV水中ターゲット追跡タスクにおける強化学習(RL)手法の適応性を強調するために、デモンストレーショントレーニングフレームワークからの効果的な2段階学習FISHERを提案すると同時に、環境相互作用や環境相互作用に対する広範な要件などの制限に対処します。
報酬関数を設計する際の課題。
最初の段階では、模倣学習 (IL) を利用してポリシーの改善を実現し、オフライン データセットを生成します。
具体的には、敵対的生成アルゴリズムの改良と、ナッシュ均衡条件から導出されたマルチエージェント IL 最適化目標に基づいて、マルチエージェント弁別者、アクター、批評家を導入します。
次に、第 2 段階では、報酬関数ではなく高品質サンプルの将来状態に適合する潜在表現を分析するマルチエージェント独立の一般化意思決定変換器を開発し、さまざまなシナリオに対応できるポリシーをさらに強化します。
さらに、従来の制御方法を活用し、デモンストレーションを取得するためのドメイン転送を簡単に実行できる、水中環境でのエキスパートデモンストレーションの生成を容易にするためのシミュレーションからシミュレーションデモンストレーション生成手順を提案します。
複数のシナリオからの広範なシミュレーション実験により、FISHER が強力な安定性、マルチタスクのパフォーマンス、汎化能力を備えていることが実証されました。
要約(オリジナル)
It is significant to employ multiple autonomous underwater vehicles (AUVs) to execute the underwater target tracking task collaboratively. However, it’s pretty challenging to meet various prerequisites utilizing traditional control methods. Therefore, we propose an effective two-stage learning from demonstrations training framework, FISHER, to highlight the adaptability of reinforcement learning (RL) methods in the multi-AUV underwater target tracking task, while addressing its limitations such as extensive requirements for environmental interactions and the challenges in designing reward functions. The first stage utilizes imitation learning (IL) to realize policy improvement and generate offline datasets. To be specific, we introduce multi-agent discriminator-actor-critic based on improvements of the generative adversarial IL algorithm and multi-agent IL optimization objective derived from the Nash equilibrium condition. Then in the second stage, we develop multi-agent independent generalized decision transformer, which analyzes the latent representation to match the future states of high-quality samples rather than reward function, attaining further enhanced policies capable of handling various scenarios. Besides, we propose a simulation to simulation demonstration generation procedure to facilitate the generation of expert demonstrations in underwater environments, which capitalizes on traditional control methods and can easily accomplish the domain transfer to obtain demonstrations. Extensive simulation experiments from multiple scenarios showcase that FISHER possesses strong stability, multi-task performance and capability of generalization.
arxiv情報
著者 | Jingzehua Xu,Guanwen Xie,Ziqi Zhang,Xiangwang Hou,Dongfang Ma,Shuai Zhang,Yong Ren,Dusit Niyato |
発行日 | 2024-12-05 08:24:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google