GPT-Driver: Learning to Drive with GPT

要約

我々は、OpenAI GPT-3.5モデルを、自律走行車のための信頼性の高いモーションプランナーに変換できる、シンプルかつ効果的なアプローチを紹介する。モーションプランニングは自律走行における中核的な課題であり、安全で快適な走行軌道を計画することを目的としている。既存のモーションプランナーは、主にヒューリスティック手法を活用して走行軌道を予測しているが、これらのアプローチは、新規かつ未知の走行シナリオに直面した場合の汎化能力が不十分であることを示している。本論文では、大規模言語モデル(Large Language Models: LLM)に固有の強力な推論能力と汎化の可能性を活用した、運動計画への新しいアプローチを提案する。本アプローチの基本的な洞察は、モーションプランニングを言語モデリング問題として再定式化することである。具体的には、プランナの入力と出力を言語トークンとして表現し、LLMを活用して座標位置の言語記述により走行軌道を生成する。さらに、LLMの潜在的な数値推論能力を刺激するために、新しいプロンプト-推論-ファインチューニング戦略を提案する。この戦略により、LLMは高精度な軌道座標とその内部決定過程を自然言語で記述することができる。我々は、大規模なnuScenesデータセットで我々のアプローチを評価し、広範な実験により、我々のGPTベースのモーションプランナーの有効性、汎化能力、解釈可能性を実証する。コードは採用され次第公開される。

要約(オリジナル)

We present a simple yet effective approach that can transform the OpenAI GPT-3.5 model into a reliable motion planner for autonomous vehicles. Motion planning is a core challenge in autonomous driving, aiming to plan a driving trajectory that is safe and comfortable. Existing motion planners predominantly leverage heuristic methods to forecast driving trajectories, yet these approaches demonstrate insufficient generalization capabilities in the face of novel and unseen driving scenarios. In this paper, we propose a novel approach to motion planning that capitalizes on the strong reasoning capabilities and generalization potential inherent to Large Language Models (LLMs). The fundamental insight of our approach is the reformulation of motion planning as a language modeling problem, a perspective not previously explored. Specifically, we represent the planner inputs and outputs as language tokens, and leverage the LLM to generate driving trajectories through a language description of coordinate positions. Furthermore, we propose a novel prompting-reasoning-finetuning strategy to stimulate the numerical reasoning potential of the LLM. With this strategy, the LLM can describe highly precise trajectory coordinates and also its internal decision-making process in natural language. We evaluate our approach on the large-scale nuScenes dataset, and extensive experiments substantiate the effectiveness, generalization ability, and interpretability of our GPT-based motion planner. Code will be released upon acceptance.

arxiv情報

著者 Jiageng Mao,Yuxi Qian,Hang Zhao,Yue Wang
発行日 2023-10-02 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO パーマリンク