Efficient Reinforcement Learning for Autonomous Driving with Parameterized Skills and Priors

要約

タイトル:パラメータ化されたスキルと事前知識を用いた自動運転の効率的な強化学習

要約:

自動運転車が公共道路に導入されると、無数の多様な運転状況に遭遇することになる。多くの手動で設計された運転方針は現実世界にスケールアップするのが難しい。幸いにも、強化学習は自動的な試行錯誤により多くのタスクで大きな成功を収めている。しかし、インタラクティブな密集交通での自動運転に関連して、RLエージェントは合理的なパフォーマンスを学習できないか、または大量のデータが必要である。

人間が運転を学ぶとき、彼らは1)低レベルの制御空間ではなく高レベルのスキル空間で決定を下し、2)ゼロから学ぶのではなく専門家の事前知識を活用する傾向があるという知見がある。このインスピレーションに着目して、スキルと専門家の事前知識を同時に活用する自動運転の効率的な強化学習アルゴリズムであるASAP-RLを提案する。

以下はASAP-RLの特徴:

– 複雑な運転シナリオと状況をカバーするだけの多様な動きスキルがパラメータ化
– スキルスペースから制御スペースへの専門家デモの逆復旧技術を提案
– 専門家事前知識を利用しながら専門家のサブ最適性と初期パフォーマンスの低下の問題を回避するシンプルで効果的な二重初期化技術を提案

簡単なスパース報酬の与えられたインタラクティブな密集交通運転タスクでASAP-RLの提案による高い学習効率と優れた運転パフォーマンスが実験的な結果として示された。今後の研究のために、コードをオープンソース化する。

要約(オリジナル)

When autonomous vehicles are deployed on public roads, they will encounter countless and diverse driving situations. Many manually designed driving policies are difficult to scale to the real world. Fortunately, reinforcement learning has shown great success in many tasks by automatic trial and error. However, when it comes to autonomous driving in interactive dense traffic, RL agents either fail to learn reasonable performance or necessitate a large amount of data. Our insight is that when humans learn to drive, they will 1) make decisions over the high-level skill space instead of the low-level control space and 2) leverage expert prior knowledge rather than learning from scratch. Inspired by this, we propose ASAP-RL, an efficient reinforcement learning algorithm for autonomous driving that simultaneously leverages motion skills and expert priors. We first parameterized motion skills, which are diverse enough to cover various complex driving scenarios and situations. A skill parameter inverse recovery method is proposed to convert expert demonstrations from control space to skill space. A simple but effective double initialization technique is proposed to leverage expert priors while bypassing the issue of expert suboptimality and early performance degradation. We validate our proposed method on interactive dense-traffic driving tasks given simple and sparse rewards. Experimental results show that our method can lead to higher learning efficiency and better driving performance relative to previous methods that exploit skills and priors differently. Code is open-sourced to facilitate further research.

arxiv情報

著者 Letian Wang,Jie Liu,Hao Shao,Wenshuo Wang,Ruobing Chen,Yu Liu,Steven L. Waslander
発行日 2023-05-08 01:39:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク