要約
オートエレクッシブ大型言語モデル(LLMS)の最近の進歩により、ビデオ生成におけるアプリケーションにつながりました。
このペーパーでは、世界モデルを構築し、将来のフレームを予測するために不可欠なタスクであるビデオ継続のために、大型ビジョンモデル(LVM)の使用を調査します。
ARCONを紹介します。これは、セマンティックトークンとRGBトークンの生成を交互に行い、LVMが高レベルの構造ビデオ情報を明示的に学習できるようにするためです。
特別なデザインなしで生成されたRGB画像とセマンティックマップの一貫性が高いことがわかります。
さらに、視覚的な品質を向上させるために、光フローベースのテクスチャステッチ方法を採用しています。
自律運転シナリオでの実験は、モデルが一貫して長いビデオを生成できることを示しています。
要約(オリジナル)
Recent advancements in auto-regressive large language models (LLMs) have led to their application in video generation. This paper explores the use of Large Vision Models (LVMs) for video continuation, a task essential for building world models and predicting future frames. We introduce ARCON, a scheme that alternates between generating semantic and RGB tokens, allowing the LVM to explicitly learn high-level structural video information. We find high consistency in the RGB images and semantic maps generated without special design. Moreover, we employ an optical flow-based texture stitching method to enhance visual quality. Experiments in autonomous driving scenarios show that our model can consistently generate long videos.
arxiv情報
著者 | Ruibo Ming,Jingwei Wu,Zhewei Huang,Zhuoxuan Ju,Jianming HU,Lihui Peng,Shuchang Zhou |
発行日 | 2025-02-26 18:16:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google