要約
自動運転車(AV)は、水中追跡などの科学ミッションに費用対効果の高いソリューションを提供します。
最近、Renforce Learning(RL)は、複雑な海洋環境でAVSを制御するための強力な方法として浮上しています。
ただし、これらの手法を艦隊にスケーリングする – マルチターゲット追跡または迅速で予測不可能な動きを備えたターゲットには必須であるため、重要な計算上の課題があります。
マルチエージェント補強学習(MARL)はサンプルでは有名であり、Gazebo’s Lrauvのような高忠実度シミュレーターは、100倍の速いシングルロボットシミュレーションを提供しますが、マルチビークルシナリオの大幅なスピードアップは提供されないため、Marlトレーニングは不可欠です。
これらの制限に対処するために、高レベルのダイナミクスを維持しながら、高忠実度シミュレーションを単純化されたGPUアクセラレーションの環境に転送する反復蒸留方法を提案します。
このアプローチは、並列化によりガゼボよりも最大30,000倍のスピードアップを実現し、エンドツーエンドのGPU加速により効率的なトレーニングを可能にします。
さらに、エージェントとターゲットの数に不変のマルチエージェントポリシーを学習する新しいトランスベースのアーキテクチャ(TransFMappo)を紹介し、サンプル効率を大幅に改善します。
GPUで完全に実施された大規模なカリキュラム学習に続いて、ガゼボで広範な評価を実行し、複数の急速に変動するターゲットが存在する場合でも、長期間で5メートル未満の追跡エラーを維持することを実証します。
この作業は、大規模なMarlトレーニングと高忠実度の展開とのギャップを埋め、現実世界の海上ミッションで自律的な艦隊制御のためのスケーラブルなフレームワークを提供します。
要約(オリジナル)
Autonomous vehicles (AV) offer a cost-effective solution for scientific missions such as underwater tracking. Recently, reinforcement learning (RL) has emerged as a powerful method for controlling AVs in complex marine environments. However, scaling these techniques to a fleet–essential for multi-target tracking or targets with rapid, unpredictable motion–presents significant computational challenges. Multi-Agent Reinforcement Learning (MARL) is notoriously sample-inefficient, and while high-fidelity simulators like Gazebo’s LRAUV provide 100x faster-than-real-time single-robot simulations, they offer no significant speedup for multi-vehicle scenarios, making MARL training impractical. To address these limitations, we propose an iterative distillation method that transfers high-fidelity simulations into a simplified, GPU-accelerated environment while preserving high-level dynamics. This approach achieves up to a 30,000x speedup over Gazebo through parallelization, enabling efficient training via end-to-end GPU acceleration. Additionally, we introduce a novel Transformer-based architecture (TransfMAPPO) that learns multi-agent policies invariant to the number of agents and targets, significantly improving sample efficiency. Following large-scale curriculum learning conducted entirely on GPU, we perform extensive evaluations in Gazebo, demonstrating that our method maintains tracking errors below 5 meters over extended durations, even in the presence of multiple fast-moving targets. This work bridges the gap between large-scale MARL training and high-fidelity deployment, providing a scalable framework for autonomous fleet control in real-world sea missions.
arxiv情報
著者 | Matteo Gallici,Ivan Masmitja,Mario Martín |
発行日 | 2025-05-13 04:42:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google