要約
複数の自律型水中ビークル (マルチ AUV) は、1 台の AUV では完了できないタスクを協力して実行できます。
最近、マルチエージェント強化学習がマルチ AUV の制御に導入されています。
ただし、マルチ AUV 制御のさまざまなタスクに対して効率的な報酬関数を設計することは困難であるか、非現実的ですらあります。
マルチエージェント生成的敵対的模倣学習 (MAGAIL) を使用すると、マルチ AUV は、事前定義された報酬関数ではなく、専門家のデモンストレーションから学習できますが、最適なデモンストレーションが必要であり、提供された専門家のデモンストレーションを超えられないという欠点があります。
この論文は、マルチエージェント敵対的生成対話型自己模倣学習 (MGAISIL) を提案することで MAGAIL アルゴリズムに基づいて構築されています。これは、提供された次善のデモンストレーションを、人間のトレーナーによって選択された自己生成の良好な軌道に徐々に置き換えることによって、AUV がポリシーを学習するのを促進できます。
。
私たちの研究室の AUV シミュレーターを備えた Gazebo プラットフォームでのマルチ AUV フォーメーション制御および障害物回避タスクの実験結果は、MAGAISIL を介して訓練された AUV が、提供された次善の専門家のデモンストレーションを上回り、MAGAIL に近い、またはそれ以上のパフォーマンスに達することができることを示しています。
最適なデモンストレーションを行います。
さらなる結果は、MAGAISIL を介して訓練された AUV のポリシーが、最適なデモンストレーションから学習した MAGAIL だけでなく、複雑で異なるタスクにも適応できることを示しています。
要約(オリジナル)
Multiple autonomous underwater vehicles (multi-AUV) can cooperatively accomplish tasks that a single AUV cannot complete. Recently, multi-agent reinforcement learning has been introduced to control of multi-AUV. However, designing efficient reward functions for various tasks of multi-AUV control is difficult or even impractical. Multi-agent generative adversarial imitation learning (MAGAIL) allows multi-AUV to learn from expert demonstration instead of pre-defined reward functions, but suffers from the deficiency of requiring optimal demonstrations and not surpassing provided expert demonstrations. This paper builds upon the MAGAIL algorithm by proposing multi-agent generative adversarial interactive self-imitation learning (MAGAISIL), which can facilitate AUVs to learn policies by gradually replacing the provided sub-optimal demonstrations with self-generated good trajectories selected by a human trainer. Our experimental results in a multi-AUV formation control and obstacle avoidance task on the Gazebo platform with AUV simulator of our lab show that AUVs trained via MAGAISIL can surpass the provided sub-optimal expert demonstrations and reach a performance close to or even better than MAGAIL with optimal demonstrations. Further results indicate that AUVs’ policies trained via MAGAISIL can adapt to complex and different tasks as well as MAGAIL learning from optimal demonstrations.
arxiv情報
著者 | Zheng Fang,Tianhao Chen,Dong Jiang,Zheng Zhang,Guangliang Li |
発行日 | 2024-01-21 03:01:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google