要約
この記事では、マルチエージェント システム向けの深層強化学習 (DRL) に基づくエンドツーエンドの衝突回避ポリシーを紹介し、実際のアプリケーションで有望な結果が得られることを示します。
特に、私たちのポリシーは、生の LiDAR 観測に基づいてエージェントの制御コマンドを計算します。
また、提案した基本モデルのパラメータ数は 140,000、パラメータファイルのサイズは 3.5 MB であり、ロボットは CPU のみで動作を計算することができます。
私たちは、シミュレーションと現実世界の間のギャップをさらに埋めるために、物理ベースのシミュレーターに基づくマルチエージェント トレーニング プラットフォームを提案します。
ポリシーは、高密度で乱雑なトレーニング環境で、ポリシー勾配ベースの RL アルゴリズムでトレーニングされます。
いくつかの一般的なシナリオでエージェントが最適ではないアクションを選択する問題に対処するために、新しい報酬関数が導入されました。
トレーニングに使用されるデータはシミュレーション プラットフォームのみからのものですが、ポリシーは現実世界のロボットに正常に転送して展開できます。
最後に、私たちのポリシーは意図的な障害物に効果的に対応し、衝突を回避します。
ウェブサイトは \url{https://sites.google.com/view/xingrong2024efficient/%E9%A6%96%E9%A1%B5} からご覧いただけます。
要約(オリジナル)
In this article, we present an end-to-end collision avoidance policy based on deep reinforcement learning (DRL) for multi-agent systems, demonstrating encouraging outcomes in real-world applications. In particular, our policy calculates the control commands of the agent based on the raw LiDAR observation. In addition, the number of parameters of the proposed basic model is 140,000, and the size of the parameter file is 3.5 MB, which allows the robot to calculate the actions from the CPU alone. We propose a multi-agent training platform based on a physics-based simulator to further bridge the gap between simulation and the real world. The policy is trained on a policy-gradients-based RL algorithm in a dense and messy training environment. A novel reward function is introduced to address the issue of agents choosing suboptimal actions in some common scenarios. Although the data used for training is exclusively from the simulation platform, the policy can be successfully transferred and deployed in real-world robots. Finally, our policy effectively responds to intentional obstructions and avoids collisions. The website is available at \url{https://sites.google.com/view/xingrong2024efficient/%E9%A6%96%E9%A1%B5}.
arxiv情報
著者 | Xingrong Diao,Jiankun Wang |
発行日 | 2024-09-04 02:39:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google