要約
自動運転には、高度にインタラクティブな環境での複雑な意思決定が含まれ、他の交通参加者との思慮深い交渉が必要です。
強化学習はこのような相互作用動作を学習する方法を提供しますが、効率的な学習はスケーラブルな状態表現に大きく依存します。
模倣学習法とは対照的に、高次元状態表現は依然として自動運転における深層強化学習法にとって大きなボトルネックとなっています。
この論文では、自動運転のための鳥瞰図表現を構築する際の課題を研究し、長距離運転のためのリカレントラーニングアーキテクチャを提案します。
RecurrDriveNet と呼ばれる当社の PPO ベースのアプローチは、CARLA の自動運転タスクのシミュレーションで実証されており、効率的なトレーニングに必要なエクスペリエンスは 100 万回のみでありながら、従来のフレームスタッキング手法を上回るパフォーマンスを発揮します。
RecurrDriveNet は、他の道路利用者と安全にやり取りすることで、走行キロメートルあたり 1 件未満の違反を引き起こします。
要約(オリジナル)
Autonomous driving involves complex decision-making in highly interactive environments, requiring thoughtful negotiation with other traffic participants. While reinforcement learning provides a way to learn such interaction behavior, efficient learning critically depends on scalable state representations. Contrary to imitation learning methods, high-dimensional state representations still constitute a major bottleneck for deep reinforcement learning methods in autonomous driving. In this paper, we study the challenges of constructing bird’s-eye-view representations for autonomous driving and propose a recurrent learning architecture for long-horizon driving. Our PPO-based approach, called RecurrDriveNet, is demonstrated on a simulated autonomous driving task in CARLA, where it outperforms traditional frame-stacking methods while only requiring one million experiences for efficient training. RecurrDriveNet causes less than one infraction per driven kilometer by interacting safely with other road users.
arxiv情報
著者 | Raphael Trumpp,Martin Büchner,Abhinav Valada,Marco Caccamo |
発行日 | 2023-08-15 14:15:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google