Pre-trained Transformer-Enabled Strategies with Human-Guided Fine-Tuning for End-to-end Navigation of Autonomous Vehicles

要約

人工知能を活用した自動運転(AD)技術は、車両の自動化を目指します。
エンドツーエンド戦略は、認識、意思決定、制御を統合することで従来の運転システムを簡素化するために出現しており、高度な運転機能に新たな道を提供します。
その可能性にもかかわらず、現在の課題としては、データの効率性、トレーニングの複雑さ、一般化の貧弱さなどが挙げられます。
この研究では、新しいエンドツーエンドの AD トレーニング モデルでこれらの問題に対処し、システムの適応性とインテリジェンスを強化します。
このモデルは、Transformer モジュールをポリシー ネットワークに組み込み、更新勾配の初期動作クローン (BC) 事前トレーニングを受けます。
その後、人間によるガイダンスを伴う強化学習 (RLHG) による微調整により、モデルを特定の運転環境に適応させ、模倣学習 (IL) のパフォーマンス限界を超えることを目指します。
微調整プロセスには人間の対話が含まれ、監視、介入、デモンストレーション、報酬フィードバックを通じてモデルがより効率的で安全な運転行動を獲得できるように導きます。
シミュレーション結果は、このフレームワークが学習を加速し、正確な制御を実現し、安全性と信頼性を大幅に向上させることを示しています。
他の高度なベースライン手法と比較して、提案されたアプローチは、困難な AD タスクに優れています。
Transformer モジュールと人間による微調整の導入により、AD 分野の研究とアプリケーションに貴重な洞察と方法が提供されます。

要約(オリジナル)

Autonomous driving (AD) technology, leveraging artificial intelligence, strives for vehicle automation. End-toend strategies, emerging to simplify traditional driving systems by integrating perception, decision-making, and control, offer new avenues for advanced driving functionalities. Despite their potential, current challenges include data efficiency, training complexities, and poor generalization. This study addresses these issues with a novel end-to-end AD training model, enhancing system adaptability and intelligence. The model incorporates a Transformer module into the policy network, undergoing initial behavior cloning (BC) pre-training for update gradients. Subsequently, fine-tuning through reinforcement learning with human guidance (RLHG) adapts the model to specific driving environments, aiming to surpass the performance limits of imitation learning (IL). The fine-tuning process involves human interactions, guiding the model to acquire more efficient and safer driving behaviors through supervision, intervention, demonstration, and reward feedback. Simulation results demonstrate that this framework accelerates learning, achieving precise control and significantly enhancing safety and reliability. Compared to other advanced baseline methods, the proposed approach excels in challenging AD tasks. The introduction of the Transformer module and human-guided fine-tuning provides valuable insights and methods for research and applications in the AD field.

arxiv情報

著者 Dong Hu,Chao Huang,Jingda Wu,Hongbo Gao
発行日 2024-02-20 02:32:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク