VaViM and VaVAM: Autonomous Driving through Video Generative Modeling

要約

自動運転のための大規模な生成ビデオモデルの可能性を探り、オープンソースの自動回帰ビデオモデル(Vavim)とそのコンパニオンビデオアクションモデル(Vavam)を導入して、ビデオの事前トレーニングが実際の世界に転送する方法を調査します。
運転。
Vavimは、時空間トークンシーケンスを使用してフレームを予測する単純な自動再帰ビデオモデルです。
運転シーンのセマンティクスとダイナミクスをキャプチャすることを示します。
ビデオアクションモデルであるVavamは、Vavimの学んだ表現を活用して、模倣学習を通じて駆動軌道を生成します。
一緒に、モデルは完全な知覚から行動へのパイプラインを形成します。
オープンループおよび閉ループの運転シナリオでモデルを評価し、ビデオベースのプリトレーニングが自律運転の約束を保持していることを明らかにしています。
重要な洞察には、学習した表現の意味的な豊かさ、ビデオ統合のためのスケーリングの利点、閉ループ評価におけるモデルサイズ、データ、および安全性指標の複雑な関係が含まれます。
https://github.com/valeoai/videoactionModelでコードとモデルの重みをリリースします

要約(オリジナル)

We explore the potential of large-scale generative video models for autonomous driving, introducing an open-source auto-regressive video model (VaViM) and its companion video-action model (VaVAM) to investigate how video pre-training transfers to real-world driving. VaViM is a simple auto-regressive video model that predicts frames using spatio-temporal token sequences. We show that it captures the semantics and dynamics of driving scenes. VaVAM, the video-action model, leverages the learned representations of VaViM to generate driving trajectories through imitation learning. Together, the models form a complete perception-to-action pipeline. We evaluate our models in open- and closed-loop driving scenarios, revealing that video-based pre-training holds promise for autonomous driving. Key insights include the semantic richness of the learned representations, the benefits of scaling for video synthesis, and the complex relationship between model size, data, and safety metrics in closed-loop evaluations. We release code and model weights at https://github.com/valeoai/VideoActionModel

arxiv情報

著者 Florent Bartoccioni,Elias Ramzi,Victor Besnier,Shashanka Venkataramanan,Tuan-Hung Vu,Yihong Xu,Loick Chambon,Spyros Gidaris,Serkan Odabas,David Hurych,Renaud Marlet,Alexandre Boulch,Mickael Chen,Éloi Zablocki,Andrei Bursuc,Eduardo Valle,Matthieu Cord
発行日 2025-02-21 18:56:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク