要約
自然言語処理における GPT シリーズなどの自己回帰 (AR) 生成モデルの最近の成功により、視覚タスクでもこの成功を再現する取り組みが促進されました。
一部の研究では、現実的な将来のビデオ シーケンスを生成し、自我の状態を予測できるビデオ ベースの世界モデルを構築することで、このアプローチを自動運転に拡張しようとしています。
ただし、従来の GPT フレームワークはテキストなどの 1D コンテキスト情報を処理するように設計されており、ビデオ生成に不可欠な空間的および時間的ダイナミクスをモデル化する固有の機能が欠けているため、従来の研究では満足のいく結果が得られない傾向があります。
この論文では、いくつかの時空間融合メカニズムを特徴とする自動運転用の GPT スタイルの世界モデルである DrivingWorld を紹介します。
この設計により、空間と時間の両方のダイナミクスの効果的なモデリングが可能になり、高忠実度で長時間のビデオ生成が容易になります。
具体的には、連続するフレーム間の時間的コヒーレンスをモデル化する次状態予測戦略を提案し、各フレーム内の空間情報をキャプチャするために次トークン予測戦略を適用します。
一般化能力をさらに強化するために、長期的なドリフト問題を軽減し、正確な制御を可能にするトークン予測のための新しいマスキング戦略と再重み付け戦略を提案します。
私たちの研究は、40 秒を超える長さの高忠実度で一貫性のあるビデオ クリップを作成できる能力を実証しています。これは、最先端のドライビング ワールド モデルの 2 倍以上の長さです。
実験によれば、従来の研究とは対照的に、私たちの方法は優れた視覚品質と、大幅に正確で制御可能な将来のビデオ生成を達成します。
私たちのコードは https://github.com/Yvanying/DrivingWorld で入手できます。
要約(オリジナル)
Recent successes in autoregressive (AR) generation models, such as the GPT series in natural language processing, have motivated efforts to replicate this success in visual tasks. Some works attempt to extend this approach to autonomous driving by building video-based world models capable of generating realistic future video sequences and predicting ego states. However, prior works tend to produce unsatisfactory results, as the classic GPT framework is designed to handle 1D contextual information, such as text, and lacks the inherent ability to model the spatial and temporal dynamics essential for video generation. In this paper, we present DrivingWorld, a GPT-style world model for autonomous driving, featuring several spatial-temporal fusion mechanisms. This design enables effective modeling of both spatial and temporal dynamics, facilitating high-fidelity, long-duration video generation. Specifically, we propose a next-state prediction strategy to model temporal coherence between consecutive frames and apply a next-token prediction strategy to capture spatial information within each frame. To further enhance generalization ability, we propose a novel masking strategy and reweighting strategy for token prediction to mitigate long-term drifting issues and enable precise control. Our work demonstrates the ability to produce high-fidelity and consistent video clips of over 40 seconds in duration, which is over 2 times longer than state-of-the-art driving world models. Experiments show that, in contrast to prior works, our method achieves superior visual quality and significantly more accurate controllable future video generation. Our code is available at https://github.com/YvanYin/DrivingWorld.
arxiv情報
著者 | Xiaotao Hu,Wei Yin,Mingkai Jia,Junyuan Deng,Xiaoyang Guo,Qian Zhang,Xiaoxiao Long,Ping Tan |
発行日 | 2024-12-30 09:08:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google