要約
この記事では、マルチエージェントシステムのディープ補強学習(DRL)に基づいたエンドツーエンドの衝突回避ポリシーを提示し、実際のアプリケーションでの促進結果を実証します。
特に、当社のポリシーは、生のライダー観測に基づいてエージェントの制御コマンドを計算します。
さらに、提案された基本モデルのパラメーターの数は140,000であり、パラメーターファイルのサイズは3.5 MBであるため、ロボットはCPUのみからのアクションを計算できます。
シミュレーションと現実世界の間のギャップをさらに埋めるために、物理ベースのシミュレーターに基づいたマルチエージェントトレーニングプラットフォームを提案します。
このポリシーは、密集した乱雑なトレーニング環境で、ポリシー勾配ベースのRLアルゴリズムでトレーニングされています。
いくつかの一般的なシナリオで、最適ではないアクションを選択するエージェントの問題に対処するために、新しい報酬関数が導入されています。
トレーニングに使用されるデータはシミュレーションプラットフォームからのみですが、ポリシーを正常に転送および実際のロボットに展開できます。
最後に、当社のポリシーは意図的な障害に効果的に対応し、衝突を回避します。
このWebサイトは、https://sites.google.com/view/xingrong2024efficient/%E9%A6%96%E9%A1%B5で入手できます。
要約(オリジナル)
In this article, we present an end-to-end collision avoidance policy based on deep reinforcement learning (DRL) for multi-agent systems, demonstrating encouraging outcomes in real-world applications. In particular, our policy calculates the control commands of the agent based on the raw LiDAR observation. In addition, the number of parameters of the proposed basic model is 140,000, and the size of the parameter file is 3.5 MB, which allows the robot to calculate the actions from the CPU alone. We propose a multi-agent training platform based on a physics-based simulator to further bridge the gap between simulation and the real world. The policy is trained on a policy-gradients-based RL algorithm in a dense and messy training environment. A novel reward function is introduced to address the issue of agents choosing suboptimal actions in some common scenarios. Although the data used for training is exclusively from the simulation platform, the policy can be successfully transferred and deployed in real-world robots. Finally, our policy effectively responds to intentional obstructions and avoids collisions. The website is available at https://sites.google.com/view/xingrong2024efficient/%E9%A6%96%E9%A1%B5.
arxiv情報
著者 | Xingrong Diao,Jiankun Wang |
発行日 | 2025-02-24 11:35:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google