要約
自律走行技術における最近の進歩には、実世界の膨大な走行データを効果的に処理し、そこから学習する機能が関わっている。現在の模倣学習やオフライン強化学習法は、オープンループ(非反応エージェント)環境において、オフラインデータセットの力を活用して情報に基づいた意思決定を行うことで、自律システムにおいて顕著な可能性を示している。しかし、学習型エージェントは、オープンループからクローズドループ(反応型エージェント)環境へ知識を伝達する際に大きな課題に直面する。その性能は、データ分布の変化、サンプルの効率性、隠された世界モデルの発見の複雑さ、物理学に大きく影響される。これらの問題に対処するために、我々はサンプル効率の良いイミタティブ・マルチトークン・デシジョン・トランスフォーマー(SimDT)を提案する。SimDTは、シーケンスモデリング強化学習に、マルチトークン予測、オンライン模倣学習パイプライン、優先順位付けされた経験再生を導入する。Waymaxベンチマークのオープンループとクローズドループの両方で、一般的な模倣学習と強化学習アルゴリズムを上回る結果を得た。SimDTはベースライン手法と比較して、衝突率を41%低減し、目的地到達率を18%向上させた。
要約(オリジナル)
Recent advancements in autonomous driving technologies involve the capability to effectively process and learn from extensive real-world driving data. Current imitation learning and offline reinforcement learning methods have shown remarkable promise in autonomous systems, harnessing the power of offline datasets to make informed decisions in open-loop (non-reactive agents) settings. However, learning-based agents face significant challenges when transferring knowledge from open-loop to closed-loop (reactive agents) environment. The performance is significantly impacted by data distribution shift, sample efficiency, the complexity of uncovering hidden world models and physics. To address these issues, we propose Sample-efficient Imitative Multi-token Decision Transformer (SimDT). SimDT introduces multi-token prediction, online imitative learning pipeline and prioritized experience replay to sequence-modelling reinforcement learning. The performance is evaluated through empirical experiments and results exceed popular imitation and reinforcement learning algorithms both in open-loop and closed-loop settings on Waymax benchmark. SimDT exhibits 41% reduction in collision rate and 18% improvement in reaching the destination compared with the baseline method.
arxiv情報
| 著者 | Hang Zhou,Dan Xu,Yiding Ji | 
| 発行日 | 2024-10-04 03:45:21+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
