Boosting Offline Reinforcement Learning for Autonomous Driving with Hierarchical Latent Skills


オフライン強化学習 (RL) は、これらの安全性が重要なタスクには適していますが、長期間にわたる計画を立てるのは依然として困難です。
この研究では、長期的な車両計画の課題を克服するためにオフライン RL を強化するスキルベースのフレームワークを紹介します。
具体的には、オフラインのデモンストレーションからスキルを学習するための変分オートエンコーダー (VAE) を設計します。
一般的な VAE の後部崩壊を軽減するために、離散的なオプションと複雑な運転スキルの連続的な変化の両方をキャプチャする 2 ブランチ シーケンス エンコーダーを導入しました。
最終的なポリシーは、学習したスキルをアクションとして扱い、既製のオフライン RL アルゴリズムでトレーニングできます。
CARLA に関する広範な結果は、私たちのモデルがトレーニングと新しいシナリオの両方で一貫して強力なベースラインを上回るパフォーマンスを示していることを証明しています。


Learning-based vehicle planning is receiving increasing attention with the emergence of diverse driving simulators and large-scale driving datasets. While offline reinforcement learning (RL) is well suited for these safety-critical tasks, it still struggles to plan over extended periods. In this work, we present a skill-based framework that enhances offline RL to overcome the long-horizon vehicle planning challenge. Specifically, we design a variational autoencoder (VAE) to learn skills from offline demonstrations. To mitigate posterior collapse of common VAEs, we introduce a two-branch sequence encoder to capture both discrete options and continuous variations of the complex driving skills. The final policy treats learned skills as actions and can be trained by any off-the-shelf offline RL algorithms. This facilitates a shift in focus from per-step actions to temporally extended skills, thereby enabling long-term reasoning into the future. Extensive results on CARLA prove that our model consistently outperforms strong baselines at both training and new scenarios. Additional visualizations and experiments demonstrate the interpretability and transferability of extracted skills.


著者 Zenan Li,Fan Nie,Qiao Sun,Fang Da,Hang Zhao
発行日 2023-11-17 05:44:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.RO パーマリンク