要約
自動運転車は、現実世界の環境において必然的に膨大なシナリオに遭遇します。
ロングテール シナリオ、特に多数の交通参加者との集中的なやり取りを伴うシナリオへの対処は、高レベルの自動運転を実現する上で依然として最も重要な課題の 1 つです。
強化学習 (RL) は、このようなシナリオに有望なソリューションを提供し、自動運転車が対話中に継続的に自己進化できるようにします。
ただし、従来の RL では、新しいシナリオで最初から試行錯誤が必要になることが多く、未知の状態の探索が非効率になってしまいます。
RL を計画ベースの手法と統合すると、学習プロセスを大幅に加速できます。
さらに、従来の RL 手法には堅牢な安全メカニズムが欠けており、エージェントが短期的な報酬を追求するために動的な環境で衝突しやすくなります。
既存の安全な RL 手法の多くは、環境モデリングに依存して、エージェントの動作を制限するための信頼できる安全境界を特定します。
ただし、明示的な環境モデルでは、動的な環境の複雑さを包括的に捉えることができない場合があります。
人間のドライバーは不確実な状況ではほとんどリスクを冒さないという観察に触発されたこの研究では、アクションのタイミングの概念を導入し、タイミングを意識した RL 手法を提案しています。このアプローチでは、「タイミング想像力」プロセスがエージェントの戦略の実行結果をプレビューします。
異なる時間スケール。
次に、最適な実行タイミングが各決定の瞬間に予測され、アクションを制限する動的安全係数が生成されます。
計画ベースの方法は、不確実な状態では保守的なベースライン戦略として機能します。
信号のない交差点と環状交差点という 2 つの代表的なインタラクション シナリオにおいて、提案されたモデルは運転の安全性においてベンチマーク モデルを上回りました。
要約(オリジナル)
Autonomous vehicles inevitably encounter a vast array of scenarios in real-world environments. Addressing long-tail scenarios, particularly those involving intensive interactions with numerous traffic participants, remains one of the most significant challenges in achieving high-level autonomous driving. Reinforcement learning (RL) offers a promising solution for such scenarios and allows autonomous vehicles to continuously self-evolve during interactions. However, traditional RL often requires trial and error from scratch in new scenarios, resulting in inefficient exploration of unknown states. Integrating RL with planning-based methods can significantly accelerate the learning process. Additionally, conventional RL methods lack robust safety mechanisms, making agents prone to collisions in dynamic environments in pursuit of short-term rewards. Many existing safe RL methods depend on environment modeling to identify reliable safety boundaries for constraining agent behavior. However, explicit environmental models can fail to capture the complexity of dynamic environments comprehensively. Inspired by the observation that human drivers rarely take risks in uncertain situations, this study introduces the concept of action timing and proposes a timing-aware RL method, In this approach, a ‘timing imagination’ process previews the execution results of the agent’s strategies at different time scales. The optimal execution timing is then projected to each decision moment, generating a dynamic safety factor to constrain actions. A planning-based method serves as a conservative baseline strategy in uncertain states. In two representative interaction scenarios, an unsignalized intersection and a roundabout, the proposed model outperforms the benchmark models in driving safety.
arxiv情報
著者 | Guanzhou Li,Jianping Wu,Yujing He |
発行日 | 2024-12-13 02:31:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google