要約
制御可能な合成データ生成により、自動運転の研究開発におけるトレーニング データのアノテーション コストを大幅に削減できます。
従来の研究では、拡散モデルを使用して、3D オブジェクトのレイアウトを条件とした運転画像を生成していました。
ただし、これらのモデルは、外観やレイアウトの多様性に欠ける nuScenes のような小規模なデータセットでトレーニングされています。
さらに、トレーニングされたモデルは、同じデータセットの検証セットからの実世界のレイアウト データに基づいて画像のみを生成できるため、オーバーフィッティングが発生する可能性があります。
この研究では、シミュレーターと現実世界からのデータを混合することで多様な運転シーンを生成する方法を学習できる SimGen と呼ばれるシミュレーター条件付きシーン生成フレームワークを紹介します。
新しいカスケード拡散パイプラインを使用して、困難なシミュレーションと現実のギャップや複数条件の競合に対処します。
SimGen の生成的多様性を強化するために、運転ビデオ データセット DIVA が収集されます。これには、世界中の 73 か所からの 147.5 時間以上の実世界の運転ビデオと、MetaDrive シミュレーターからのシミュレートされた運転データが含まれています。
SimGen は、シミュレータから取得したテキスト プロンプトとレイアウトに基づいた制御性を維持しながら、優れた生成品質と多様性を実現します。
さらに、BEV 検出およびセグメンテーション タスクにおける合成データ拡張に関して SimGen によってもたらされた改善を実証し、セーフティ クリティカルなデータ生成におけるその機能を紹介します。
コード、データ、モデルが利用可能になります。
要約(オリジナル)
Controllable synthetic data generation can substantially lower the annotation cost of training data in autonomous driving research and development. Prior works use diffusion models to generate driving images conditioned on the 3D object layout. However, those models are trained on small-scale datasets like nuScenes, which lack appearance and layout diversity. Moreover, the trained models can only generate images based on the real-world layout data from the validation set of the same dataset, where overfitting might happen. In this work, we introduce a simulator-conditioned scene generation framework called SimGen that can learn to generate diverse driving scenes by mixing data from the simulator and the real world. It uses a novel cascade diffusion pipeline to address challenging sim-to-real gaps and multi-condition conflicts. A driving video dataset DIVA is collected to enhance the generative diversity of SimGen, which contains over 147.5 hours of real-world driving videos from 73 locations worldwide and simulated driving data from the MetaDrive simulator. SimGen achieves superior generation quality and diversity while preserving controllability based on the text prompt and the layout pulled from a simulator. We further demonstrate the improvements brought by SimGen for synthetic data augmentation on the BEV detection and segmentation task and showcase its capability in safety-critical data generation. Code, data, and models will be made available.
arxiv情報
著者 | Yunsong Zhou,Michael Simon,Zhenghao Peng,Sicheng Mo,Hongzi Zhu,Minyi Guo,Bolei Zhou |
発行日 | 2024-06-13 17:58:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google