Random Network Distillation Based Deep Reinforcement Learning for AGV Path Planning

要約

インテリジェント倉庫システムの開発が盛んに行われるにつれ、無人搬送車 (AGV) の技術は急速に成長しました。
インテリジェントな倉庫環境内では、AGV は複雑で動的な環境で最適な経路を安全かつ迅速に計画する必要があります。
ほとんどの研究では、この課題に対処するために深層強化学習が研究されてきました。
ただし、外部報酬がまばらな環境では、これらのアルゴリズムは収束が遅く、学習が非効率的であるか、目標に到達できないことがよくあります。
探索の強化としてのランダム ネットワーク蒸留 (RND) は、近接ポリシーの最適化のパフォーマンスを効果的に向上させることができ、特に報酬が希薄な環境にある AGV エージェントの追加の固有報酬を強化します。
さらに、現在の研究のほとんどは実験環境として 2D グリッド迷路を使用し続けています。
これらの環境では、複雑さが不十分であり、アクション セットが限られています。
この制限を解決するために、現実的な物理シナリオに近づけることができるように、AGV の連続動作と位置を備えた AGV 経路計画のシミュレーション環境を提示します。
私たちの実験と提案された方法の包括的な分析に基づく結果は、私たちの提案された方法により、AGV が環境内で継続的なアクションで経路計画タスクをより迅速に完了できることを示しています。
実験の一部のビデオは https://youtu.be/lwrY9YesGmw でご覧いただけます。

要約(オリジナル)

With the flourishing development of intelligent warehousing systems, the technology of Automated Guided Vehicle (AGV) has experienced rapid growth. Within intelligent warehousing environments, AGV is required to safely and rapidly plan an optimal path in complex and dynamic environments. Most research has studied deep reinforcement learning to address this challenge. However, in the environments with sparse extrinsic rewards, these algorithms often converge slowly, learn inefficiently or fail to reach the target. Random Network Distillation (RND), as an exploration enhancement, can effectively improve the performance of proximal policy optimization, especially enhancing the additional intrinsic rewards of the AGV agent which is in sparse reward environments. Moreover, most of the current research continues to use 2D grid mazes as experimental environments. These environments have insufficient complexity and limited action sets. To solve this limitation, we present simulation environments of AGV path planning with continuous actions and positions for AGVs, so that it can be close to realistic physical scenarios. Based on our experiments and comprehensive analysis of the proposed method, the results demonstrate that our proposed method enables AGV to more rapidly complete path planning tasks with continuous actions in our environments. A video of part of our experiments can be found at https://youtu.be/lwrY9YesGmw.

arxiv情報

著者 Huilin Yin,Shengkai Su,Yinjia Lin,Pengju Zhen,Karin Festl,Daniel Watzenig
発行日 2024-04-19 02:52:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク