要約
AGV(Autonomous Ground Vehicle:自律型無人搬送車)は、危険な環境下でも人間の介入を最小限に抑えて走行できることから、さまざまなアプリケーションに不可欠なツールとなっています。AGVの運用を成功させるためには、効果的な動作計画が最も重要です。従来のモーションプランニングアルゴリズムは、環境特性に関する事前知識に依存しており、火災や地震のような緊急災害が発生する地域や、火星のトンネルや溶岩洞窟のような未踏の地下環境のような、情報が乏しく動的に変化する環境では有用性が限られる。我々は、生のセンサーデータから直接、連続的かつ高次元の行動空間におけるポリシーを学習するために、アクター・クリティックDRLアルゴリズムを利用した、事前マップのないインテリジェントAGV探索のためのディープ強化学習(DRL)フレームワークを提案する。DRL アーキテクチャは、評論家およびアクター表現用のフィードフォワード・ニューラル・ネットワークで構成され、アクター・ネットワークは、現在の状態入力を与えられた線形および角速度制御アクションを戦略化し、そのアクションは、累積報酬を最大化するために Q 値を学習および推定する評論家ネットワークによって評価されます。DDPG、TD3、SACの3つのオフポリシーDRLアルゴリズムが、複雑さの異なる2つの環境で学習・比較され、さらに事前学習やマップ特性に関する知識のない3つ目の環境で評価される。エージェントは各トレーニング期間の終わりに最適なポリシーを学習し、衝突のない探索軌道を素早く描くことが示され、ネットワークアーキテクチャやハイパーパラメータを変更することなく未知の環境に適応できる拡張性を持つ。さらに、最適なアルゴリズムを現実的な3D環境で評価する。
要約(オリジナル)
Autonomous Ground Vehicles (AGVs) are essential tools for a wide range of applications stemming from their ability to operate in hazardous environments with minimal human operator input. Effective motion planning is paramount for successful operation of AGVs. Conventional motion planning algorithms are dependent on prior knowledge of environment characteristics and offer limited utility in information poor, dynamically altering environments such as areas where emergency hazards like fire and earthquake occur, and unexplored subterranean environments such as tunnels and lava tubes on Mars. We propose a Deep Reinforcement Learning (DRL) framework for intelligent AGV exploration without a-priori maps utilizing Actor-Critic DRL algorithms to learn policies in continuous and high-dimensional action spaces directly from raw sensor data. The DRL architecture comprises feedforward neural networks for the critic and actor representations in which the actor network strategizes linear and angular velocity control actions given current state inputs, that are evaluated by the critic network which learns and estimates Q-values to maximize an accumulated reward. Three off-policy DRL algorithms, DDPG, TD3 and SAC, are trained and compared in two environments of varying complexity, and further evaluated in a third with no prior training or knowledge of map characteristics. The agent is shown to learn optimal policies at the end of each training period to chart quick, collision-free exploration trajectories, and is extensible, capable of adapting to an unknown environment without changes to network architecture or hyperparameters. The best algorithm is further evaluated in a realistic 3D environment.
arxiv情報
著者 | Shathushan Sivashangaran,Azim Eskandarian |
発行日 | 2023-09-01 04:00:40+00:00 |
arxivサイト | arxiv_id(pdf) |