Temporally Consistent Video Transformer for Long-Term Video Prediction

要約

時間的に一貫性のある長い動画を生成することは、動画生成における未解決の課題のままである。主に計算機の制限により、ほとんどの先行手法は、フレームの小さなサブセットで学習し、その後、スライディングウィンドウ方式でより長いビデオを生成するために拡張することに限定される。これらの手法はシャープな動画を生成することができるが、コンテキストの長さが限られているため、長期的な時間的一貫性を保持することが困難である。本研究では、学習時と生成時の両方で、数百フレームに及ぶ長い動画を効率的に条件付けるために圧縮表現を学習するベクトル量子化潜在ダイナミクス動画予測モデル、Temporally Consistent Video Transformer (TECO) を発表する。TECOは、学習と生成の両方において、数百フレームに及ぶ長時間のビデオに対して効率的に圧縮表現を学習する。我々の実験では、DMLabの単純な迷路、Minecraftの大規模3D世界、Kinetics-600の複雑な実世界映像など、様々な映像予測ベンチマークにおいてTECOがSOTAベースラインより優れていることが示された。さらに、時間的整合性のモデル化におけるビデオ予測モデルの能力をより理解するために、様々な難易度の3Dシーンをランダムに横断するエージェントからなる、いくつかの困難なビデオ予測タスクを導入しました。これは、モデルが過去の観測や世代に応じて、シーンのどの部分を再作成するか、または発明するかを理解しなければならない、部分的に観測可能な環境におけるビデオ予測の困難なベンチマークを提示するものである。生成された動画は、https://wilson1yan.github.io/teco で公開されています。

要約(オリジナル)

Generating long, temporally consistent video remains an open challenge in video generation. Primarily due to computational limitations, most prior methods limit themselves to training on a small subset of frames that are then extended to generate longer videos through a sliding window fashion. Although these techniques may produce sharp videos, they have difficulty retaining long-term temporal consistency due to their limited context length. In this work, we present Temporally Consistent Video Transformer (TECO), a vector-quantized latent dynamics video prediction model that learns compressed representations to efficiently condition on long videos of hundreds of frames during both training and generation. We use a MaskGit prior for dynamics prediction which enables both sharper and faster generations compared to prior work. Our experiments show that TECO outperforms SOTA baselines in a variety of video prediction benchmarks ranging from simple mazes in DMLab, large 3D worlds in Minecraft, and complex real-world videos from Kinetics-600. In addition, to better understand the capabilities of video prediction models in modeling temporal consistency, we introduce several challenging video prediction tasks consisting of agents randomly traversing 3D scenes of varying difficulty. This presents a challenging benchmark for video prediction in partially observable environments where a model must understand what parts of the scenes to re-create versus invent depending on its past observations or generations. Generated videos are available at https://wilson1yan.github.io/teco

arxiv情報

著者 Wilson Yan,Danijar Hafner,Stephen James,Pieter Abbeel
発行日 2022-10-05 17:15:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク