Research on Autonomous Robots Navigation based on Reinforcement Learning

要約

強化学習は、環境との継続的な対話を通じてリアルタイムのフィードバック報酬信号に基づいて意思決定を継続的に最適化し、強力な適応能力と自己学習能力を実証します。
近年、ロボットの自律走行を実現するための重要な手法の一つとなっています。
この研究では、強化学習に基づく自律ロボットナビゲーション手法が導入されています。
当社は、Deep Q Network (DQN) モデルと Proximal Policy Optimization (PPO) モデルを使用して、ロボットと環境の間の継続的なインタラクション、およびリアルタイム フィードバックによる報酬信号を通じて経路計画と意思決定プロセスを最適化します。
Q 値関数とディープ ニューラル ネットワークを組み合わせることで、ディープ Q ネットワークは高次元の状態空間を処理できるようになり、複雑な環境での経路計画を実現できます。
近接政策最適化は戦略勾配ベースの手法であり、ロボットが政策機能を最適化することで環境情報をより効率的に探索および利用できるようになります。
これらの方法は、未知の環境におけるロボットのナビゲーション能力を向上させるだけでなく、ロボットの適応能力と自己学習能力も強化します。
複数のトレーニングとシミュレーション実験を通じて、さまざまな複雑なシナリオにおけるこれらのモデルの有効性と堅牢性を検証しました。

要約(オリジナル)

Reinforcement learning continuously optimizes decision-making based on real-time feedback reward signals through continuous interaction with the environment, demonstrating strong adaptive and self-learning capabilities. In recent years, it has become one of the key methods to achieve autonomous navigation of robots. In this work, an autonomous robot navigation method based on reinforcement learning is introduced. We use the Deep Q Network (DQN) and Proximal Policy Optimization (PPO) models to optimize the path planning and decision-making process through the continuous interaction between the robot and the environment, and the reward signals with real-time feedback. By combining the Q-value function with the deep neural network, deep Q network can handle high-dimensional state space, so as to realize path planning in complex environments. Proximal policy optimization is a strategy gradient-based method, which enables robots to explore and utilize environmental information more efficiently by optimizing policy functions. These methods not only improve the robot’s navigation ability in the unknown environment, but also enhance its adaptive and self-learning capabilities. Through multiple training and simulation experiments, we have verified the effectiveness and robustness of these models in various complex scenarios.

arxiv情報

著者 Zixiang Wang,Hao Yan,Yining Wang,Zhengjia Xu,Zhuoyue Wang,Zhizhong Wu
発行日 2024-08-14 04:49:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, stat.ML パーマリンク