Human-centric Reward Optimization for Reinforcement Learning-based Automated Driving using Large Language Models

要約

現在の強化学習 (RL) ベースの自動運転 (AD) エージェントにおける重要な課題の 1 つは、柔軟で正確な人間のような動作をコスト効率よく実現することです。
この論文では、大規模言語モデル (LLM) を使用して人間中心の方法で RL 報酬関数を直感的かつ効果的に最適化する革新的なアプローチを紹介します。
私たちは、命令と動的な環境記述を LLM に入力するフレームワークを開発しました。
次に、LLM はこの情報を利用して報酬の生成を支援し、それによって RL エージェントの動作を人間の運転によりよく似たパターンに向けて制御します。
実験結果は、このアプローチにより RL エージェントがより擬人化されるだけでなく、より優れたパフォーマンスが達成されることを示しています。
さらに、報酬プロキシと報酬形成のためのさまざまな戦略が調査され、プロンプト設計が AD ビークルの動作の形成に大きな影響を与えることが明らかになりました。
これらの発見は、より高度な人間のような自動運転システムの開発に有望な方向性を提供します。
私たちの実験データとソースコードはここにあります

要約(オリジナル)

One of the key challenges in current Reinforcement Learning (RL)-based Automated Driving (AD) agents is achieving flexible, precise, and human-like behavior cost-effectively. This paper introduces an innovative approach that uses large language models (LLMs) to intuitively and effectively optimize RL reward functions in a human-centric way. We developed a framework where instructions and dynamic environment descriptions are input into the LLM. The LLM then utilizes this information to assist in generating rewards, thereby steering the behavior of RL agents towards patterns that more closely resemble human driving. The experimental results demonstrate that this approach not only makes RL agents more anthropomorphic but also achieves better performance. Additionally, various strategies for reward-proxy and reward-shaping are investigated, revealing the significant impact of prompt design on shaping an AD vehicle’s behavior. These findings offer a promising direction for the development of more advanced, human-like automated driving systems. Our experimental data and source code can be found here

arxiv情報

著者 Ziqi Zhou,Jingyue Zhang,Jingyuan Zhang,Yangfan He,Boyue Wang,Tianyu Shi,Alaa Khamis
発行日 2024-12-23 13:48:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク