要約
エンドツーエンドの自動運転は、生のセンサーデータを入力として受け取り、計画された軌道や自車両の制御信号を直接出力する、完全に微分可能なシステムを構築することを目的としています。
最先端の手法は通常、「教師と生徒」のパラダイムに従います。
Teacher モデルは、特権情報 (周囲のエージェントとマップ要素のグラウンドトゥルース状態) を使用して、運転戦略を学習します。
学生モデルは生のセンサー データにのみアクセスでき、教師モデルによって収集されたデータに対して動作のクローン作成を実行します。
計画学習中に知覚部分のノイズを排除することで、最先端の作品は、それらを組み合わせたものと比較して、大幅に少ないデータでより良いパフォーマンスを達成できる可能性があります。
ただし、現在の教師と生徒のパラダイムでは、生徒モデルは依然として計画のヘッドをゼロから学習する必要があり、生のセンサー入力の冗長でノイズの多い性質と、動作の複製による偶発的な混乱の問題により、これは困難になる可能性があります。
この研究では、強力な教師モデルを直接採用して計画を実行し、学生モデルに知覚部分にさらに焦点を当てさせる可能性を探ることを目的としています。
SOTA 認識モデルが装備されている場合でも、教師モデルの必要な入力を生徒モデルに直接学習させると、運転パフォーマンスの低下につながることがわかりました。これは、予測された特権入力とグラウンドトゥルースの間の大きな分布ギャップに起因します。
この目的を達成するために、学生 (認識) モジュールと教師 (計画) モジュール間の機能調整目的関数を備えたアダプターを使用する DriveAdapter を提案します。
さらに、純粋な学習ベースの教師モデル自体は不完全であり、安全ルールを破ることがあるため、これらの不完全な教師の特徴をマスクして、手作りのルールの事前分布を学習にさらに注入する、アクションガイド付きの特徴学習の方法を提案します。
プロセス。
要約(オリジナル)
End-to-end autonomous driving aims to build a fully differentiable system that takes raw sensor data as inputs and directly outputs the planned trajectory or control signals of the ego vehicle. State-of-the-art methods usually follow the `Teacher-Student’ paradigm. The Teacher model uses privileged information (ground-truth states of surrounding agents and map elements) to learn the driving strategy. The student model only has access to raw sensor data and conducts behavior cloning on the data collected by the teacher model. By eliminating the noise of the perception part during planning learning, state-of-the-art works could achieve better performance with significantly less data compared to those coupled ones. However, under the current Teacher-Student paradigm, the student model still needs to learn a planning head from scratch, which could be challenging due to the redundant and noisy nature of raw sensor inputs and the casual confusion issue of behavior cloning. In this work, we aim to explore the possibility of directly adopting the strong teacher model to conduct planning while letting the student model focus more on the perception part. We find that even equipped with a SOTA perception model, directly letting the student model learn the required inputs of the teacher model leads to poor driving performance, which comes from the large distribution gap between predicted privileged inputs and the ground-truth. To this end, we propose DriveAdapter, which employs adapters with the feature alignment objective function between the student (perception) and teacher (planning) modules. Additionally, since the pure learning-based teacher model itself is imperfect and occasionally breaks safety rules, we propose a method of action-guided feature learning with a mask for those imperfect teacher features to further inject the priors of hand-crafted rules into the learning process.
arxiv情報
著者 | Xiaosong Jia,Yulu Gao,Li Chen,Junchi Yan,Patrick Langechuan Liu,Hongyang Li |
発行日 | 2023-08-01 09:21:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google