A Safety-Oriented Self-Learning Algorithm for Autonomous Driving: Evolution Starting from a Basic Model

要約

自己学習機能を備えた自動運転車は、さまざまなシナリオに対処する能力を向上させるために、複雑な環境で進化すると予想されます。
しかし、ほとんどの自己学習アルゴリズムは学習効率が低く、安全性が欠如しているため、用途が制限されます。
本稿では、基本モデルからいかに進化させるかに焦点を当てた、自動運転のための安全志向の自己学習アルゴリズムを提案する。
具体的には、トランスエンコーダに基づく基本モデルは、少数の実証軌跡からポリシー特徴を抽出して出力するように設計されています。
学習効率を向上させるために、ポリシー混合アプローチが開発されています。
基本モデルは探査効率を向上させるための初期値を提供し、自己学習アルゴリズムはモデルの適応性と一般化を強化し、外部介入なしで継続的な改善を可能にします。
最後に、後退地平線最適化に基づくアクター近似器は、安全性を確保するために環境入力の制約を考慮して設計されています。
提案された手法は、歩行者と車両が混在する困難な交通環境で検証されます。
シミュレーションと実車テストの結果から、提案手法が適切な自動運転行動を安全かつ効率的に学習できることが示されています。
強化学習や行動複製手法と比較して、安全性の確保を前提とした学習効率とパフォーマンスの総合的な向上を実現できます。

要約(オリジナル)

Autonomous driving vehicles with self-learning capabilities are expected to evolve in complex environments to improve their ability to cope with different scenarios. However, most self-learning algorithms suffer from low learning efficiency and lacking safety, which limits their applications. This paper proposes a safety-oriented self-learning algorithm for autonomous driving, which focuses on how to achieve evolution from a basic model. Specifically, a basic model based on the transformer encoder is designed to extract and output policy features from a small number of demonstration trajectories. To improve the learning efficiency, a policy mixed approach is developed. The basic model provides initial values to improve exploration efficiency, and the self-learning algorithm enhances the adaptability and generalization of the model, enabling continuous improvement without external intervention. Finally, an actor approximator based on receding horizon optimization is designed considering the constraints of the environmental input to ensure safety. The proposed method is verified in a challenging mixed traffic environment with pedestrians and vehicles. Simulation and real-vehicle test results show that the proposed method can safely and efficiently learn appropriate autonomous driving behaviors. Compared reinforcement learning and behavior cloning methods, it can achieve comprehensive improvement in learning efficiency and performance under the premise of ensuring safety.

arxiv情報

著者 Shuo Yang,Caojun Wang,Zhenyu Ma,Yanjun Huang,Hong Chen
発行日 2024-08-22 08:11:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク