Cosmos-Drive-Dreams: Scalable Synthetic Driving Data Generation with World Foundation Models

要約

自律車両(AV)などの安全性が批判的な物理AIシステムの実世界データを収集および注釈することは、時間がかかり、費用がかかります。
AVシステムのトレーニングとテストに重要な役割を果たすレアエッジケースをキャプチャすることは特に困難です。
この課題に対処するために、Cosmos-drive-dreams-on Syntetic Data Generation(SDG)パイプラインを紹介します。このパイプラインは、挑戦的なシナリオを生成して、認識や運転政策トレーニングなどのダウンストリームタスクを促進することを目的としています。
このパイプラインの動力は、駆動ドメイン向けのNvidia Cosmos World Foundationモデルから特化したモデルのスイートであり、制御可能で高忠実度、マルチビュー、および空間的に一貫したドライビングビデオ生成が可能です。
Cosmos-drive-dreamsを適用して、高忠実度と挑戦的なシナリオで運転データセットの量と多様性を拡大することにより、これらのモデルの有用性を紹介します。
実験的に、生成されたデータは、長期尾の分布の問題の緩和に役立ち、3Dレーン検出、3Dオブジェクト検出、ポリシー学習の促進などの下流タスクの一般化を強化することを実証します。
NvidiaのCosmosプラットフォームを介して、パイプラインツールキット、データセット、モデルの重みをオープンします。
プロジェクトページ:https://research.nvidia.com/labs/toronto-ai/cosmos_drive_dreams

要約(オリジナル)

Collecting and annotating real-world data for safety-critical physical AI systems, such as Autonomous Vehicle (AV), is time-consuming and costly. It is especially challenging to capture rare edge cases, which play a critical role in training and testing of an AV system. To address this challenge, we introduce the Cosmos-Drive-Dreams – a synthetic data generation (SDG) pipeline that aims to generate challenging scenarios to facilitate downstream tasks such as perception and driving policy training. Powering this pipeline is Cosmos-Drive, a suite of models specialized from NVIDIA Cosmos world foundation model for the driving domain and are capable of controllable, high-fidelity, multi-view, and spatiotemporally consistent driving video generation. We showcase the utility of these models by applying Cosmos-Drive-Dreams to scale the quantity and diversity of driving datasets with high-fidelity and challenging scenarios. Experimentally, we demonstrate that our generated data helps in mitigating long-tail distribution problems and enhances generalization in downstream tasks such as 3D lane detection, 3D object detection and driving policy learning. We open source our pipeline toolkit, dataset and model weights through the NVIDIA’s Cosmos platform. Project page: https://research.nvidia.com/labs/toronto-ai/cosmos_drive_dreams

arxiv情報

著者 Xuanchi Ren,Yifan Lu,Tianshi Cao,Ruiyuan Gao,Shengyu Huang,Amirmojtaba Sabour,Tianchang Shen,Tobias Pfaff,Jay Zhangjie Wu,Runjian Chen,Seung Wook Kim,Jun Gao,Laura Leal-Taixe,Mike Chen,Sanja Fidler,Huan Ling
発行日 2025-06-10 17:58:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク