WALDO: Future Video Synthesis using Object Layer Decomposition and Parametric Flow Prediction

要約

この論文では、過去のビデオ フレームから将来のビデオ フレームを予測するための新しいアプローチである WALDO (WArping Layer-Decomposed Objects) を紹介します。
個々の画像は、オブジェクト マスクとコントロール ポイントの小さなセットを組み合わせた複数のレイヤーに分解されます。
レイヤー構造は、各ビデオのすべてのフレームで共有され、密なフレーム間接続を構築します。
複雑なシーンの動きは、個々のレイヤーに関連付けられたパラメトリック幾何学的変換を組み合わせることでモデル化され、ビデオ合成は、過去のフレームに関連付けられたレイヤーの検出、次のフレームに対応する変換の予測、それに応じて関連するオブジェクト領域のワープ、および残りのフレームの埋め込みに分解されます。
イメージパーツ。
Cityscapes (resp. KITTI) データセットに関する大規模な実験では、WALDO が以前の作業よりも大幅に優れており、たとえば、SSIM、LPIPS、および FVD メトリックが 3、27、および 51% (それぞれ、5、20、および 11%) 相対的に改善されていることが示されています。
私たちのアプローチによって合成されたコード、事前トレーニング済みのモデル、およびビデオ サンプルは、プロジェクトの Web ページ https://16lemoing.github.io/waldo にあります。

要約(オリジナル)

This paper presents WALDO (WArping Layer-Decomposed Objects), a novel approach to the prediction of future video frames from past ones. Individual images are decomposed into multiple layers combining object masks and a small set of control points. The layer structure is shared across all frames in each video to build dense inter-frame connections. Complex scene motions are modeled by combining parametric geometric transformations associated with individual layers, and video synthesis is broken down into discovering the layers associated with past frames, predicting the corresponding transformations for upcoming ones and warping the associated object regions accordingly, and filling in the remaining image parts. Extensive experiments on the Cityscapes (resp. KITTI) dataset show that WALDO significantly outperforms prior works with, e.g., 3, 27, and 51% (resp. 5, 20 and 11%) relative improvement in SSIM, LPIPS and FVD metrics. Code, pretrained models, and video samples synthesized by our approach can be found in the project webpage https://16lemoing.github.io/waldo.

arxiv情報

著者 Guillaume Le Moing,Jean Ponce,Cordelia Schmid
発行日 2022-11-25 18:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク