要約
近年、深層強化学習(DRL)がロボットの衝突回避の有望な手法として浮上しています。
ただし、このような DRL モデルには、さまざまな歩行者を含む構造化された環境に効果的に適応するなどの制限があることがよくあります。
この問題を解決するために、これまでの研究では、ウェイポイント プランナーと DRL を統合することによるエンドツーエンド ソリューションのトレーニングや、DRL モデルの欠点を軽減するマルチモーダル ソリューションの開発など、いくつかのアプローチが試みられてきました。
ただし、これらのアプローチでは、トレーニング時間の遅さ、スケーラビリティの課題、異なるモデル間の調整の不足など、いくつかの問題に直面しています。
これらの課題に対処するために、この論文では、これらの課題に取り組むための進化的カリキュラムトレーニングと呼ばれる新しいアプローチを紹介します。
進化的カリキュラム トレーニングの主な目的は、さまざまなシナリオにおける衝突回避モデルの能力を評価し、その不十分なスキルを強化するためのカリキュラムを作成することです。
この論文では、構造化マップのナビゲーションと動的障害物の回避における DRL モデルのパフォーマンスを評価するための革新的な評価手法を紹介します。
さらに、進化的なトレーニング環境により、前回の評価でテストされた DRL モデルの不十分なスキルを向上させるためのすべてのカリキュラムが生成されます。
この進化的トレーニング環境がより高い成功率とより低い平均衝突数につながるという仮説を検証するために、5 つの構造化された環境にわたってモデルのパフォーマンスをベンチマークします。
詳細と結果については、プロジェクトの Web サイトをご覧ください。
要約(オリジナル)
In recent years, Deep Reinforcement Learning (DRL) has emerged as a promising method for robot collision avoidance. However, such DRL models often come with limitations, such as adapting effectively to structured environments containing various pedestrians. In order to solve this difficulty, previous research has attempted a few approaches, including training an end-to-end solution by integrating a waypoint planner with DRL and developing a multimodal solution to mitigate the drawbacks of the DRL model. However, these approaches have encountered several issues, including slow training times, scalability challenges, and poor coordination among different models. To address these challenges, this paper introduces a novel approach called evolutionary curriculum training to tackle these challenges. The primary goal of evolutionary curriculum training is to evaluate the collision avoidance model’s competency in various scenarios and create curricula to enhance its insufficient skills. The paper introduces an innovative evaluation technique to assess the DRL model’s performance in navigating structured maps and avoiding dynamic obstacles. Additionally, an evolutionary training environment generates all the curriculum to improve the DRL model’s inadequate skills tested in the previous evaluation. We benchmark the performance of our model across five structured environments to validate the hypothesis that this evolutionary training environment leads to a higher success rate and a lower average number of collisions. Further details and results at our project website.
arxiv情報
著者 | Max Asselmeier,Zhaoyi Li,Kelin Yu,Danfei Xu |
発行日 | 2023-06-15 05:56:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google