要約
エンドツーエンドの自動運転は、大量のデータから学習できる可能性があるため、ますます注目を集めています。
しかし、既存の手法のほとんどは依然としてオープンループであり、スケーラビリティが弱く、高次の相互作用が欠如し、意思決定が非効率であるという問題があります。
この論文では、自動運転のための閉ループ フレームワークを検討し、統合された認識、予測、計画のための大規模な運転世界モデル (Doe-1) を提案します。
私たちは自動運転を次のトークン生成問題として定式化し、マルチモーダル トークンを使用してさまざまなタスクを実行します。
具体的には、知覚のために自由形式のテキスト (つまり、シーンの説明) を使用し、画像トークンを使用して RGB 空間で直接将来の予測を生成します。
計画のために、位置認識トークナイザーを採用して、アクションを個別のトークンに効果的にエンコードします。
マルチモーダル トランスフォーマーをトレーニングして、エンドツーエンドかつ統合された方法で認識、予測、計画トークンを自己回帰的に生成します。
広く使用されている nuScenes データセットの実験では、視覚的な質問応答、アクション条件付きビデオ生成、動作計画などのさまざまなタスクにおける Doe-1 の有効性が実証されています。
コード: https://github.com/wzzheng/Doe。
要約(オリジナル)
End-to-end autonomous driving has received increasing attention due to its potential to learn from large amounts of data. However, most existing methods are still open-loop and suffer from weak scalability, lack of high-order interactions, and inefficient decision-making. In this paper, we explore a closed-loop framework for autonomous driving and propose a large Driving wOrld modEl (Doe-1) for unified perception, prediction, and planning. We formulate autonomous driving as a next-token generation problem and use multi-modal tokens to accomplish different tasks. Specifically, we use free-form texts (i.e., scene descriptions) for perception and generate future predictions directly in the RGB space with image tokens. For planning, we employ a position-aware tokenizer to effectively encode action into discrete tokens. We train a multi-modal transformer to autoregressively generate perception, prediction, and planning tokens in an end-to-end and unified manner. Experiments on the widely used nuScenes dataset demonstrate the effectiveness of Doe-1 in various tasks including visual question-answering, action-conditioned video generation, and motion planning. Code: https://github.com/wzzheng/Doe.
arxiv情報
著者 | Wenzhao Zheng,Zetian Xia,Yuanhui Huang,Sicheng Zuo,Jie Zhou,Jiwen Lu |
発行日 | 2024-12-12 18:59:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google