Unleashing Generalization of End-to-End Autonomous Driving with Controllable Long Video Generation

要約

生成モデルを使用して新しいデータを合成することは、データ不足の問題に対処するための自動運転の事実上の標準になっています。
既存のアプローチは知覚モデルを向上させることができますが、生成されるビデオは通常 8 フレーム未満であり、空間的および時間的な不一致が無視できないため、これらのアプローチではエンドツーエンドの自動運転モデル​​の計画のパフォーマンスを向上させることができないことがわかりました。

この目的を達成するために、空間的一貫性を高めるためにマルチビュー全体で共有ノイズモデリングメカニズムを備えた新しい拡散ベースの長時間ビデオ生成方法である Delphi と、正確な制御性と時間的一貫性の両方を達成する機能調整モジュールを提案します。
私たちの方法では、一貫性を失うことなく最大 40 フレームのビデオを生成できます。これは、最先端の方法と比較して約 5 倍長い時間です。
新しいデータをランダムに生成する代わりに、サンプル効率を向上させるために、Delphi がこれらの失敗ケースに類似した新しいデータを生成できるようにサンプリング ポリシーをさらに設計します。
これは、事前トレーニングされた視覚言語モデルを利用して、失敗事例主導のフレームワークを構築することで実現されます。
私たちの広範な実験により、Delphi が以前の最先端の方法を上回る高品質の長いビデオを生成できることが実証されました。
その結果、トレーニング データセット サイズの 4% のみを生成するだけで、私たちのフレームワークは、私たちの知る限り初めて、認識と予測のタスクを超えて、エンドツーエンドの自動運転モデル​​の計画パフォーマンスを向上させることができます。
25%のマージンで。

要約(オリジナル)

Using generative models to synthesize new data has become a de-facto standard in autonomous driving to address the data scarcity issue. Though existing approaches are able to boost perception models, we discover that these approaches fail to improve the performance of planning of end-to-end autonomous driving models as the generated videos are usually less than 8 frames and the spatial and temporal inconsistencies are not negligible. To this end, we propose Delphi, a novel diffusion-based long video generation method with a shared noise modeling mechanism across the multi-views to increase spatial consistency, and a feature-aligned module to achieves both precise controllability and temporal consistency. Our method can generate up to 40 frames of video without loss of consistency which is about 5 times longer compared with state-of-the-art methods. Instead of randomly generating new data, we further design a sampling policy to let Delphi generate new data that are similar to those failure cases to improve the sample efficiency. This is achieved by building a failure-case driven framework with the help of pre-trained visual language models. Our extensive experiment demonstrates that our Delphi generates a higher quality of long videos surpassing previous state-of-the-art methods. Consequentially, with only generating 4% of the training dataset size, our framework is able to go beyond perception and prediction tasks, for the first time to the best of our knowledge, boost the planning performance of the end-to-end autonomous driving model by a margin of 25%.

arxiv情報

著者 Enhui Ma,Lijun Zhou,Tao Tang,Zhan Zhang,Dong Han,Junpeng Jiang,Kun Zhan,Peng Jia,Xianpeng Lang,Haiyang Sun,Di Lin,Kaicheng Yu
発行日 2024-06-06 17:39:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク