AdaWM: Adaptive World Model based Planning for Autonomous Driving

要約

ワールド モデル ベースの強化学習 (RL) は、潜在的なダイナミクス モデルを学習し、それを使用して計画ポリシーをトレーニングする自動運転の有望なアプローチとして浮上しています。
学習プロセスを高速化するために、事前トレーニングと微調整のパラダイムがよく使用されます。このパラダイムでは、オンライン RL が事前トレーニングされたモデルとオフラインで学習されたポリシーによって初期化されます。
ただし、RL でこのような初期化を単純に実行すると、新しいタスクでのオンライン対話中にパフォーマンスが大幅に低下する可能性があります。
この課題に取り組むために、私たちはまずパフォーマンスの低下を分析し、その中の 2 つの主要な根本原因を特定します。それは、分布の変化による計画ポリシーの不一致とダイナミクス モデルの不一致です。
微調整中のパフォーマンス低下に対するこれらの要因の影響をさらに分析し、その結果、微調整戦略の選択がこれらの影響を軽減する上で極めて重要な役割を果たすことが明らかになりました。
次に、適応世界モデルベースの計画手法である AdaWM を紹介します。この手法では、(a) 不一致を定量化し、微調整戦略に通知する不一致の特定、および (b) ポリシーまたはポリシーのいずれかを選択的に更新する調整主導の微調整の 2 つの主要なステップを特徴としています。
効率的な低ランク更新を使用して、必要に応じてモデルを更新します。
CARLA の困難な運転タスクに関する広範な実験により、AdaWM が微調整プロセスを大幅に改善し、自動運転システムのパフォーマンスがより堅牢かつ効率的に向上することが実証されました。

要約(オリジナル)

World model based reinforcement learning (RL) has emerged as a promising approach for autonomous driving, which learns a latent dynamics model and uses it to train a planning policy. To speed up the learning process, the pretrain-finetune paradigm is often used, where online RL is initialized by a pretrained model and a policy learned offline. However, naively performing such initialization in RL may result in dramatic performance degradation during the online interactions in the new task. To tackle this challenge, we first analyze the performance degradation and identify two primary root causes therein: the mismatch of the planning policy and the mismatch of the dynamics model, due to distribution shift. We further analyze the effects of these factors on performance degradation during finetuning, and our findings reveal that the choice of finetuning strategies plays a pivotal role in mitigating these effects. We then introduce AdaWM, an Adaptive World Model based planning method, featuring two key steps: (a) mismatch identification, which quantifies the mismatches and informs the finetuning strategy, and (b) alignment-driven finetuning, which selectively updates either the policy or the model as needed using efficient low-rank updates. Extensive experiments on the challenging CARLA driving tasks demonstrate that AdaWM significantly improves the finetuning process, resulting in more robust and efficient performance in autonomous driving systems.

arxiv情報

著者 Hang Wang,Xin Ye,Feng Tao,Abhirup Mallik,Burhaneddin Yaman,Liu Ren,Junshan Zhang
発行日 2025-01-22 18:34:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク