HOPE: A Reinforcement Learning-based Hybrid Policy Path Planner for Diverse Parking Scenarios

要約

経路計画は自動駐車において極めて重要な役割を果たしますが、現在の方法では複雑で多様な駐車シナリオを効率的に処理するのが困難です。
考えられる解決策の 1 つは、記録されていない状況での探索を活用する、強化学習ベースの方法です。
ただし、強化学習手法のトレーニングにおける重要な課題は、実行可能なポリシーに収束する際の固有のランダム性です。
このホワイトペーパーでは、強化学習エージェントと Reeds-Shepp 曲線を統合し、多様なシナリオにわたって効果的な計画を可能にする、新しいソリューションである Hybrid POLicy Path plannEr (HOPE) を紹介します。
この論文では、パス計画におけるアクション マスク メカニズムを計算して実装し、強化学習トレーニングの効率と有効性を大幅に高める方法を紹介します。
ネットワーク構造として変圧器を採用し、環境情報を融合し計画経路を生成します。
提案されたプランナーのトレーニングと評価を容易にするために、スペースと障害物の分布に基づいて駐車シナリオの難易度を分類するための基準を提案します。
実験結果は、私たちのアプローチが典型的なルールベースのアルゴリズムや従来の強化学習手法よりも優れたパフォーマンスを示し、さまざまなシナリオにわたって高い計画成功率と一般化を示していることを示しています。
私たちのソリューションのコードは、\href{GitHub}{https://github.com/jiamya/HOPE} で公開される予定です。
論文が受理された後の%。

要約(オリジナル)

Path planning plays a pivotal role in automated parking, yet current methods struggle to efficiently handle the intricate and diverse parking scenarios. One potential solution is the reinforcement learning-based method, leveraging its exploration in unrecorded situations. However, a key challenge lies in training reinforcement learning methods is the inherent randomness in converging to a feasible policy. This paper introduces a novel solution, the Hybrid POlicy Path plannEr (HOPE), which integrates a reinforcement learning agent with Reeds-Shepp curves, enabling effective planning across diverse scenarios. The paper presents a method to calculate and implement an action mask mechanism in path planning, significantly boosting the efficiency and effectiveness of reinforcement learning training. A transformer is employed as the network structure to fuse environmental information and generate planned paths. To facilitate the training and evaluation of the proposed planner, we propose a criterion for categorizing the difficulty level of parking scenarios based on space and obstacle distribution. Experimental results demonstrate that our approach outperforms typical rule-based algorithms and traditional reinforcement learning methods, showcasing higher planning success rates and generalization across various scenarios. The code for our solution will be openly available on \href{GitHub}{https://github.com/jiamiya/HOPE}. % after the paper’s acceptance.

arxiv情報

著者 Mingyang Jiang,Yueyuan Li,Songan Zhang,Chunxiang Wang,Ming Yang
発行日 2024-05-31 02:17:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク