要約
自動運転のためのエンドツーエンドのマルチモーダルモデルであるEMMAを紹介します。
マルチモーダル大規模言語モデル基盤に構築された EMMA は、生のカメラ センサー データを、プランナーの軌跡、認識オブジェクト、道路グラフ要素などのさまざまな運転固有の出力に直接マッピングします。
EMMA は、すべての非センサー入力 (ナビゲーション指示や自車両の状態など) と出力 (軌跡や 3D 位置など) を自然言語テキストとして表すことにより、事前トレーニングされた大規模言語モデルからの世界知識の有用性を最大化します。
このアプローチにより、EMMA は統一言語空間でさまざまな運転タスクを共同処理し、タスク固有のプロンプトを使用して各タスクの出力を生成できます。
私たちは、nuScenes でのモーション プランニングにおける最先端のパフォーマンスと、Waymo Open Motion Dataset (WOMD) での競争力のある結果を達成することで、EMMA の有効性を実証しています。
EMMA は、Waymo Open Dataset (WOD) でのカメラによる主要な 3D オブジェクト検出でも競争力のある結果をもたらしています。
EMMAをプランナー軌道、物体検出、道路グラフタスクと同時トレーニングすると、3つの領域すべてにわたって改善がもたらされることを示し、自動運転アプリケーションのジェネラリストモデルとしてのEMMAの可能性を強調します。
ただし、EMMA には一定の制限もあります。処理できるのは少量の画像フレームのみで、LiDAR やレーダーのような正確な 3D センシング モダリティが組み込まれておらず、計算コストが高くつきます。
私たちは、私たちの結果がこれらの問題を軽減し、自動運転モデルアーキテクチャの最先端をさらに進化させるためのさらなる研究のきっかけとなることを願っています。
要約(オリジナル)
We introduce EMMA, an End-to-end Multimodal Model for Autonomous driving. Built on a multi-modal large language model foundation, EMMA directly maps raw camera sensor data into various driving-specific outputs, including planner trajectories, perception objects, and road graph elements. EMMA maximizes the utility of world knowledge from the pre-trained large language models, by representing all non-sensor inputs (e.g. navigation instructions and ego vehicle status) and outputs (e.g. trajectories and 3D locations) as natural language text. This approach allows EMMA to jointly process various driving tasks in a unified language space, and generate the outputs for each task using task-specific prompts. Empirically, we demonstrate EMMA’s effectiveness by achieving state-of-the-art performance in motion planning on nuScenes as well as competitive results on the Waymo Open Motion Dataset (WOMD). EMMA also yields competitive results for camera-primary 3D object detection on the Waymo Open Dataset (WOD). We show that co-training EMMA with planner trajectories, object detection, and road graph tasks yields improvements across all three domains, highlighting EMMA’s potential as a generalist model for autonomous driving applications. However, EMMA also exhibits certain limitations: it can process only a small amount of image frames, does not incorporate accurate 3D sensing modalities like LiDAR or radar and is computationally expensive. We hope that our results will inspire further research to mitigate these issues and to further evolve the state of the art in autonomous driving model architectures.
arxiv情報
著者 | Jyh-Jing Hwang,Runsheng Xu,Hubert Lin,Wei-Chih Hung,Jingwei Ji,Kristy Choi,Di Huang,Tong He,Paul Covington,Benjamin Sapp,James Guo,Dragomir Anguelov,Mingxing Tan |
発行日 | 2024-10-30 17:46:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google