要約
強化学習 (RL) ベースの自動運転は、データ駆動型の模倣学習アプローチに代わる有望な代替手段として浮上しています。
ただし、RL の効果的な報酬関数を作成するには、さまざまなシナリオにわたる適切な運転行動の定義と定量化が複雑であるため、課題が生じます。
最近、大規模な事前トレーニング済みモデルが、望ましい言語目標で指定されたタスクに対するゼロショット報酬モデルとして大きな注目を集めています。
しかし、「安全に運転する」などの自動運転に求められる言語目標は、事前訓練されたモデルでは曖昧で理解できません。
一方、「衝突」のような望ましくない言語目標は、より具体的で扱いやすいものです。
この研究では、望ましくない言語目標を通じた逆報酬設計に基づく新しい大規模モデルである LORD を紹介し、大規模な事前トレーニング済みモデルをゼロショット報酬モデルとして効率的に使用できるようにします。
広範な実験を通じて、私たちが提案するフレームワークは、安全で強化された自動運転を実現するために大規模な事前学習済みモデルの力を活用する効率性を示しています。
さらに、提案されたアプローチは、多様で困難な運転シナリオにわたって対応する手法よりも優れたパフォーマンスを発揮するため、一般化機能が向上しています。
要約(オリジナル)
Reinforcement learning (RL) based autonomous driving has emerged as a promising alternative to data-driven imitation learning approaches. However, crafting effective reward functions for RL poses challenges due to the complexity of defining and quantifying good driving behaviors across diverse scenarios. Recently, large pretrained models have gained significant attention as zero-shot reward models for tasks specified with desired linguistic goals. However, the desired linguistic goals for autonomous driving such as ‘drive safely’ are ambiguous and incomprehensible by pretrained models. On the other hand, undesired linguistic goals like ‘collision’ are more concrete and tractable. In this work, we introduce LORD, a novel large models based opposite reward design through undesired linguistic goals to enable the efficient use of large pretrained models as zero-shot reward models. Through extensive experiments, our proposed framework shows its efficiency in leveraging the power of large pretrained models for achieving safe and enhanced autonomous driving. Moreover, the proposed approach shows improved generalization capabilities as it outperforms counterpart methods across diverse and challenging driving scenarios.
arxiv情報
著者 | Xin Ye,Feng Tao,Abhirup Mallik,Burhaneddin Yaman,Liu Ren |
発行日 | 2024-03-27 19:30:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google