Learning-based Near-optimal Motion Planning for Intelligent Vehicles with Uncertain Dynamics

要約

動作計画は、インテリジェント車両の安全で柔軟な操縦を実現する上で重要な研究テーマです。
しかし、不確実なモデルダイナミクスが存在する中で効率的かつ最適な計画を実現することは依然として課題です。
この論文では、オンライン適応と最適に近い動作計画パフォーマンスを達成するために、ガウス過程 (GP) 回帰を使用したスパース カーネル ベースの強化学習 (RL) アルゴリズム (GP-SKRL と呼ばれます) を提案します。
このアルゴリズムでは、不確実なダイナミクスを学習するための効率的なスパース GP 回帰法を設計します。
更新されたモデルに基づいて、指数関数バリア関数を備えたスパース カーネル ベースのポリシー反復アルゴリズムは、動的障害を回避する機能を備えた最適に近い計画ポリシーを学習するように設計されています。
これにより、オンライン適応機能を備えたバッチモード GP-SKRL は、変化するシステムダイナミクスを推定できます。
統合された RL ポリシーは、安全性を考慮したモジュールの下で車両に効率的に展開されます。
その結果、生成される運転行動は安全で保守的ではなくなり、計画のパフォーマンスが著しく向上しました。
広範なシミュレーション結果から、平均累積コスト、軌道長、タスク完了時間の点で GP-SKRL がいくつかの高度な動作計画手法よりも優れていることが示されています。
特に、Hongqi E-HS3 車両での実験では、優れた GP-SKRL が実用的な計画ソリューションを提供することが実証されています。

要約(オリジナル)

Motion planning has been an important research topic in achieving safe and flexible maneuvers for intelligent vehicles. However, it remains challenging to realize efficient and optimal planning in the presence of uncertain model dynamics. In this paper, a sparse kernel-based reinforcement learning (RL) algorithm with Gaussian Process (GP) Regression (called GP-SKRL) is proposed to achieve online adaption and near-optimal motion planning performance. In this algorithm, we design an efficient sparse GP regression method to learn the uncertain dynamics. Based on the updated model, a sparse kernel-based policy iteration algorithm with an exponential barrier function is designed to learn the near-optimal planning policies with the capability to avoid dynamic obstacles. Thereby, batch-mode GP-SKRL with online adaption capability can estimate the changing system dynamics. The converged RL policies are then deployed on vehicles efficiently under a safety-aware module. As a result, the produced driving actions are safe and less conservative, and the planning performance has been noticeably improved. Extensive simulation results show that GP-SKRL outperforms several advanced motion planning methods in terms of average cumulative cost, trajectory length, and task completion time. In particular, experiments on a Hongqi E-HS3 vehicle demonstrate that superior GP-SKRL provides a practical planning solution.

arxiv情報

著者 Yang Lu,Xinglong Zhang,Xin Xu,Weijia Yao
発行日 2023-08-09 08:40:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク