要約
深層強化学習 (DRL) は、ローカル パス プランニング (LPP) 問題の解決に有効性を示しています。
ただし、DRL のトレーニング効率と汎化能力が不十分なため、現実世界におけるこのような応用は非常に限られています。
これら 2 つの問題を軽減するために、Actor-Shaler-Learner (ASL) トレーニング フレームワークとモバイル ロボット指向のシミュレーター Sparrow で構成される Color という名前のソリューションが提案されています。
具体的には、ASL は DRL アルゴリズムのトレーニング効率を向上させることを目的としています。
ベクトル化データ収集 (VDC) モードを採用してデータ収集を促進し、マルチスレッドによるモデルの最適化からデータ収集を分離し、タイム フィードバック メカニズム (TFM) を利用して 2 つの手順を部分的に接続して、データの過少使用または過剰使用を回避します。
一方、Sparrow シミュレーターは 2D グリッドベースの世界、簡素化された運動学、変換不要のデータ フローを利用して軽量設計を実現しています。
軽量性によりベクトル化された多様性が促進され、ベクトル化された環境の広範なコピーにわたって多様なシミュレーション設定が可能になり、その結果、トレーニングされる DRL アルゴリズムの一般化機能が顕著に強化されます。
57 の DRL ベンチマーク環境、32 のシミュレートされた LPP シナリオ、および 36 の現実世界の LPP シナリオで構成される包括的な実験が、効率と一般化の観点から私たちの方法の優位性を裏付けるために実施されました。
この論文のコードとビデオは https://github.com/XinJingHao/Color からアクセスできます。
要約(オリジナル)
Deep Reinforcement Learning (DRL) has exhibited efficacy in resolving the Local Path Planning (LPP) problem. However, such application in the real world is immensely limited due to the deficient training efficiency and generalization capability of DRL. To alleviate these two issues, a solution named Color is proposed, which consists of an Actor-Sharer-Learner (ASL) training framework and a mobile robot-oriented simulator Sparrow. Specifically, the ASL intends to improve the training efficiency of DRL algorithms. It employs a Vectorized Data Collection (VDC) mode to expedite data acquisition, decouples the data collection from model optimization by multithreading, and partially connects the two procedures by harnessing a Time Feedback Mechanism (TFM) to evade data underuse or overuse. Meanwhile, the Sparrow simulator utilizes a 2D grid-based world, simplified kinematics, and conversion-free data flow to achieve a lightweight design. The lightness facilitates vectorized diversity, allowing diversified simulation setups across extensive copies of the vectorized environments, resulting in a notable enhancement in the generalization capability of the DRL algorithm being trained. Comprehensive experiments, comprising 57 DRL benchmark environments, 32 simulated and 36 real-world LPP scenarios, have been conducted to corroborate the superiority of our method in terms of efficiency and generalization. The code and the video of this paper are accessible at https://github.com/XinJingHao/Color.
arxiv情報
著者 | Jinghao Xin,Jinwoo Kim,Zhi Li,Ning Li |
発行日 | 2024-01-17 08:37:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google