Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving?

要約

自動運転 (AD) タスクの急速な進歩により、特に堅牢な論理的推論と認知能力を統合して包括的なエンドツーエンドの計画を可能にするビジョン言語モデル (VLM) の利用において、エンドツーエンドのファッションへの大きな移行が起こりました。

ただし、これらの VLM ベースのアプローチは、2D ビジョン トークナイザーとエゴ カー プランニング用の大規模言語モデル (LLM) を統合する傾向があり、信頼性の高いプランニングの基礎となる 3D 幾何学的事前分布が欠如しています。
当然のことながら、この観察は重大な懸念を引き起こします: 2D トークン化された LLM は 3D 環境を正確に認識できるでしょうか?
3D オブジェクト検出、ベクトル化された地図構築、環境キャプションにわたる現在の VLM ベースの手法を評価したところ、残念ながら答えは NO であることがわかりました。
言い換えれば、2D トークン化 LLM は信頼性の高い自動運転を提供できません。
これに応じて、LLM を 1 層リニア プロジェクターと接続する 3D トークナイザーとして DETR スタイルの 3D パーセプトロンを導入します。
アトラスと呼ばれるこのシンプルかつエレガントな戦略は、3D 物理世界の固有の事前分布を活用し、高解像度のマルチビュー画像の処理と時空間モデリングの採用を同時に可能にします。
Atlas はそのシンプルさにも関わらず、nuScenes データセット上の 3D 検出と自我計画タスクの両方で優れたパフォーマンスを示し、3D トークン化された LLM が信頼性の高い自動運転の鍵であることを証明しています。
コードとデータセットはリリースされます。

要約(オリジナル)

Rapid advancements in Autonomous Driving (AD) tasks turned a significant shift toward end-to-end fashion, particularly in the utilization of vision-language models (VLMs) that integrate robust logical reasoning and cognitive abilities to enable comprehensive end-to-end planning. However, these VLM-based approaches tend to integrate 2D vision tokenizers and a large language model (LLM) for ego-car planning, which lack 3D geometric priors as a cornerstone of reliable planning. Naturally, this observation raises a critical concern: Can a 2D-tokenized LLM accurately perceive the 3D environment? Our evaluation of current VLM-based methods across 3D object detection, vectorized map construction, and environmental caption suggests that the answer is, unfortunately, NO. In other words, 2D-tokenized LLM fails to provide reliable autonomous driving. In response, we introduce DETR-style 3D perceptrons as 3D tokenizers, which connect LLM with a one-layer linear projector. This simple yet elegant strategy, termed Atlas, harnesses the inherent priors of the 3D physical world, enabling it to simultaneously process high-resolution multi-view images and employ spatiotemporal modeling. Despite its simplicity, Atlas demonstrates superior performance in both 3D detection and ego planning tasks on nuScenes dataset, proving that 3D-tokenized LLM is the key to reliable autonomous driving. The code and datasets will be released.

arxiv情報

著者 Yifan Bai,Dongming Wu,Yingfei Liu,Fan Jia,Weixin Mao,Ziheng Zhang,Yucheng Zhao,Jianbing Shen,Xing Wei,Tiancai Wang,Xiangyu Zhang
発行日 2024-05-28 16:57:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク