要約
自律走行のためのエンドツーエンドのマルチモーダルモデルであるEMMAを紹介する。EMMAは、マルチモーダルな大規模言語モデルの基盤の上に構築され、生のカメラセンサーデータを、プランナーの軌跡、知覚オブジェクト、道路グラフ要素などの様々な運転に特化した出力に直接マッピングします。EMMAは、すべての非センサ入力(ナビゲーション指示や自車両の状態など)と出力(軌跡や3D位置など)を自然言語テキストとして表現することで、事前に訓練された大規模言語モデルからの世界知識の有用性を最大化します。このアプローチにより、EMMAは統一された言語空間で様々な運転タスクを共同で処理し、タスク固有のプロンプトを使用して各タスクの出力を生成することができます。経験的に、我々は、Waymo Open Motion Dataset (WOMD)で競争力のある結果と同様に、nuScenes上のモーションプランニングで最先端のパフォーマンスを達成することにより、EMMAの有効性を実証する。また、EMMAは、Waymo Open Dataset (WOD)において、カメラ主体の3Dオブジェクト検出で競争力のある結果を得る。我々は、プランナーの軌跡、物体検出、および道路グラフタスクとEMMAを協調学習させることで、3つの領域すべてにおいて改善が得られることを示し、EMMAが自律走行アプリケーションのジェネラリストモデルとしての可能性を強調する。しかしながら、EMMAには、少量の画像フレームしか処理できない、LiDARやレーダーのような正確な3Dセンシングモダリティを組み込めない、計算コストが高い、といった限界もある。我々の結果が、これらの問題を軽減し、自律走行モデル・アーキテクチャの最先端技術をさらに進化させるためのさらなる研究を促すことを期待している。
要約(オリジナル)
We introduce EMMA, an End-to-end Multimodal Model for Autonomous driving. Built on a multi-modal large language model foundation, EMMA directly maps raw camera sensor data into various driving-specific outputs, including planner trajectories, perception objects, and road graph elements. EMMA maximizes the utility of world knowledge from the pre-trained large language models, by representing all non-sensor inputs (e.g. navigation instructions and ego vehicle status) and outputs (e.g. trajectories and 3D locations) as natural language text. This approach allows EMMA to jointly process various driving tasks in a unified language space, and generate the outputs for each task using task-specific prompts. Empirically, we demonstrate EMMA’s effectiveness by achieving state-of-the-art performance in motion planning on nuScenes as well as competitive results on the Waymo Open Motion Dataset (WOMD). EMMA also yields competitive results for camera-primary 3D object detection on the Waymo Open Dataset (WOD). We show that co-training EMMA with planner trajectories, object detection, and road graph tasks yields improvements across all three domains, highlighting EMMA’s potential as a generalist model for autonomous driving applications. However, EMMA also exhibits certain limitations: it can process only a small amount of image frames, does not incorporate accurate 3D sensing modalities like LiDAR or radar and is computationally expensive. We hope that our results will inspire further research to mitigate these issues and to further evolve the state of the art in autonomous driving model architectures.
arxiv情報
著者 | Jyh-Jing Hwang,Runsheng Xu,Hubert Lin,Wei-Chih Hung,Jingwei Ji,Kristy Choi,Di Huang,Tong He,Paul Covington,Benjamin Sapp,Yin Zhou,James Guo,Dragomir Anguelov,Mingxing Tan |
発行日 | 2024-11-04 18:44:20+00:00 |
arxivサイト | arxiv_id(pdf) |