要約
Q ラーニングは、経路計画問題を解決するために広く使用されている強化学習手法です。
これには主にエージェントとその環境の間の相互作用が含まれており、エージェントが累積報酬を最大化する最適な戦略を学習できるようになります。
Q ラーニングの有効性は多くの研究で報告されていますが、実際のアプリケーションでは依然として収束が遅いという問題に直面しています。
この問題に対処するために、ニューラル ネットワークの出力をヒューリスティック情報として利用し、Q 学習の収束プロセスを加速する NDR-QL 手法を提案します。
具体的には、スタートエンドチャネル分離メカニズムを導入し、特徴融合プロセスを強化することにより、デュアル出力ニューラルネットワークモデルを改善しました。
トレーニング後、提案された NDR モデルは、ガイドラインと呼ばれる、狭く焦点を絞った最適な確率分布と、領域と呼ばれる広く分散された準最適な分布を出力できます。
続いて、ガイドライン予測に基づいて Q 学習法の連続報酬関数を計算し、領域予測に基づいてバイアスを加えて Q テーブルを初期化します。
私たちは、公開データセットでトレーニング、検証、経路計画シミュレーション実験を実施しました。
結果は、NDR モデルが予測精度において以前の方法よりも最大 5\% 優れていることを示しています。
さらに、提案された NDR-QL 手法は、ベースライン Q 学習手法の収束速度を 90% 向上させ、パス品質メトリクスにおいても以前に改良された Q 学習手法を上回っています。
要約(オリジナル)
Q-learning is a widely used reinforcement learning technique for solving path planning problems. It primarily involves the interaction between an agent and its environment, enabling the agent to learn an optimal strategy that maximizes cumulative rewards. Although many studies have reported the effectiveness of Q-learning, it still faces slow convergence issues in practical applications. To address this issue, we propose the NDR-QL method, which utilizes neural network outputs as heuristic information to accelerate the convergence process of Q-learning. Specifically, we improved the dual-output neural network model by introducing a start-end channel separation mechanism and enhancing the feature fusion process. After training, the proposed NDR model can output a narrowly focused optimal probability distribution, referred to as the guideline, and a broadly distributed suboptimal distribution, referred to as the region. Subsequently, based on the guideline prediction, we calculate the continuous reward function for the Q-learning method, and based on the region prediction, we initialize the Q-table with a bias. We conducted training, validation, and path planning simulation experiments on public datasets. The results indicate that the NDR model outperforms previous methods by up to 5\% in prediction accuracy. Furthermore, the proposed NDR-QL method improves the convergence speed of the baseline Q-learning method by 90\% and also surpasses the previously improved Q-learning methods in path quality metrics.
arxiv情報
著者 | Yiming Ji,Kaijie Yun,Yang Liu,Zongwu Xie,Hong Liu |
発行日 | 2024-12-17 08:19:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google