Augmenting Reinforcement Learning with Transformer-based Scene Representation Learning for Decision-making of Autonomous Driving


強化学習 (RL) ベースの意思決定スキームは都市部の運転シナリオの処理に有望ですが、サンプル効率が低く、適応性が低いという問題があります。
この論文では、より優れたシーン表現エンコーディングと逐次予測潜在蒸留により RL 意思決定能力を向上させるために、Scene-Rep Transformer を提案します。
具体的には、多段トランスフォーマー (MST) エンコーダは、自車両とその近隣車両との間の相互作用認識だけでなく、エージェントとその候補ルートとの間の意図認識もモデル化するように構築されています。
探索スペースを削減し、トレーニングを高速化するために、自己教師あり学習目標を備えた逐次潜在トランスフォーマー (SLT) を使用して、将来の予測情報を潜在シーン表現に抽出します。
ソフト アクター クリティカル (SAC) に基づく最終意思決定モジュールは、Scene-Rep Transformer からの洗練された潜在シーン表現を入力として受け取り、運転アクションを出力します。
このフレームワークは、交通量が密集した 5 つの挑戦的なシミュレーション都市シナリオで検証されており、そのパフォーマンスは、成功率、安全性、効率の面でデータ効率とパフォーマンスが大幅に向上することで定量的に示されています。


Decision-making for urban autonomous driving is challenging due to the stochastic nature of interactive traffic participants and the complexity of road structures. Although reinforcement learning (RL)-based decision-making scheme is promising to handle urban driving scenarios, it suffers from low sample efficiency and poor adaptability. In this paper, we propose Scene-Rep Transformer to improve the RL decision-making capabilities with better scene representation encoding and sequential predictive latent distillation. Specifically, a multi-stage Transformer (MST) encoder is constructed to model not only the interaction awareness between the ego vehicle and its neighbors but also intention awareness between the agents and their candidate routes. A sequential latent Transformer (SLT) with self-supervised learning objectives is employed to distill the future predictive information into the latent scene representation, in order to reduce the exploration space and speed up training. The final decision-making module based on soft actor-critic (SAC) takes as input the refined latent scene representation from the Scene-Rep Transformer and outputs driving actions. The framework is validated in five challenging simulated urban scenarios with dense traffic, and its performance is manifested quantitatively by the substantial improvements in data efficiency and performance in terms of success rate, safety, and efficiency. The qualitative results reveal that our framework is able to extract the intentions of neighbor agents to help make decisions and deliver more diversified driving behaviors.


著者 Haochen Liu,Zhiyu Huang,Xiaoyu Mo,Chen Lv
発行日 2023-08-24 06:53:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク