要約
強化学習 (RL) アルゴリズムは、堅牢な学習能力と検索の安定性で知られ、大きな注目を集めており、無人搬送車 (AGV) の経路計画に広範囲に応用されています。
ただし、RL 計画アルゴリズムは、環境の不安定性やシステム構造の大幅な変動によって引き起こされるニューラル ネットワークの大幅な変動に起因する課題に直面します。
これらの課題は、収束速度の遅さと学習効率の低さとして現れます。
この問題に取り組むために、このペーパーでは、マルチ AGV 強化学習パス プランニングに粒子フィルター (PF) を組み込む粒子フィルター ダブル ディープ Q ネットワーク (PF-DDQN) アプローチを紹介します。
PF-DDQN メソッドは、ネットワークの不正確な重み値を状態値として利用して、状態空間方程式を定式化します。
ニューラル ネットワークと粒子フィルターの反復融合プロセスを通じて、DDQN モデルは最適な真の重み値を取得するように最適化され、アルゴリズムの効率が向上します。
提案手法の有効性と優位性を数値シミュレーションにより検証する。
全体として、シミュレーション結果は、提案されたアルゴリズムが、パス計画の優位性とトレーニング時間指標の点で、それぞれ 92.62% と 76.88% も従来の DDQN アルゴリズムを上回っていることを示しています。
結論として、PF-DDQN 手法は、AGV 経路計画における RL 計画アルゴリズムが直面する課題に対処します。
粒子フィルターを統合し、DDQN モデルを最適化することにより、提案された方法は効率が向上し、経路計画の優位性とトレーニング時間指標の点で従来の DDQN アルゴリズムを上回ります。
要約(オリジナル)
The Reinforcement Learning (RL) algorithm, renowned for its robust learning capability and search stability, has garnered significant attention and found extensive application in Automated Guided Vehicle (AGV) path planning. However, RL planning algorithms encounter challenges stemming from the substantial variance of neural networks caused by environmental instability and significant fluctuations in system structure. These challenges manifest in slow convergence speed and low learning efficiency. To tackle this issue, this paper presents the Particle Filter-Double Deep Q-Network (PF-DDQN) approach, which incorporates the Particle Filter (PF) into multi-AGV reinforcement learning path planning. The PF-DDQN method leverages the imprecise weight values of the network as state values to formulate the state space equation. Through the iterative fusion process of neural networks and particle filters, the DDQN model is optimized to acquire the optimal true weight values, thus enhancing the algorithm’s efficiency. The proposed method’s effectiveness and superiority are validated through numerical simulations. Overall, the simulation results demonstrate that the proposed algorithm surpasses the traditional DDQN algorithm in terms of path planning superiority and training time indicators by 92.62% and 76.88%, respectively. In conclusion, the PF-DDQN method addresses the challenges encountered by RL planning algorithms in AGV path planning. By integrating the Particle Filter and optimizing the DDQN model, the proposed method achieves enhanced efficiency and outperforms the traditional DDQN algorithm in terms of path planning superiority and training time indicators.
arxiv情報
著者 | Shao Shuo |
発行日 | 2024-04-08 07:43:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google