要約
3D シーンがどのように進化するかを理解することは、自動運転における意思決定を行う上で不可欠です。
既存の方法のほとんどは、オブジェクト ボックスの動きを予測することでこれを実現していますが、これではより詳細なシーン情報を取得できません。
この論文では、自車の動きと周囲のシーンの進化を同時に予測するために、3D 占有空間でワールド モデル OccWorld を学習する新しいフレームワークを検討します。
私たちは、次の 3 つの理由から、3D 境界ボックスやセグメンテーション マップではなく 3D 占有に基づいて世界モデルを学習することを提案します。1) 表現力。
3D 占有率は、シーンのよりきめの細かい 3D 構造を記述することができます。
2)効率。
3D 占有率は、(例: まばらな LiDAR ポイントから) 取得する方が経済的です。
3)多用途性。
3D 占有はビジョンと LiDAR の両方に適応できます。
世界の進化のモデリングを容易にするために、周囲のシーンを記述するための離散シーン トークンを取得するために、3D 占有に関する再構成ベースのシーン トークナイザーを学習します。
次に、GPT のような時空間生成トランスフォーマーを採用して、後続のシーンとエゴ トークンを生成し、将来の占有とエゴの軌道をデコードします。
広く使用されている nuScenes ベンチマークに関する広範な実験により、OccWorld が運転シーンの進化を効果的にモデル化できることが実証されました。
OccWorld は、インスタンスやマップの監視を使用せずに、競争力のある計画結果も生成します。
コード: https://github.com/wzzheng/OccWorld。
要約(オリジナル)
Understanding how the 3D scene evolves is vital for making decisions in autonomous driving. Most existing methods achieve this by predicting the movements of object boxes, which cannot capture more fine-grained scene information. In this paper, we explore a new framework of learning a world model, OccWorld, in the 3D Occupancy space to simultaneously predict the movement of the ego car and the evolution of the surrounding scenes. We propose to learn a world model based on 3D occupancy rather than 3D bounding boxes and segmentation maps for three reasons: 1) expressiveness. 3D occupancy can describe the more fine-grained 3D structure of the scene; 2) efficiency. 3D occupancy is more economical to obtain (e.g., from sparse LiDAR points). 3) versatility. 3D occupancy can adapt to both vision and LiDAR. To facilitate the modeling of the world evolution, we learn a reconstruction-based scene tokenizer on the 3D occupancy to obtain discrete scene tokens to describe the surrounding scenes. We then adopt a GPT-like spatial-temporal generative transformer to generate subsequent scene and ego tokens to decode the future occupancy and ego trajectory. Extensive experiments on the widely used nuScenes benchmark demonstrate the ability of OccWorld to effectively model the evolution of the driving scenes. OccWorld also produces competitive planning results without using instance and map supervision. Code: https://github.com/wzzheng/OccWorld.
arxiv情報
著者 | Wenzhao Zheng,Weiliang Chen,Yuanhui Huang,Borui Zhang,Yueqi Duan,Jiwen Lu |
発行日 | 2023-11-27 17:59:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google