要約
この論文では、過去のビデオ フレームから将来のビデオ フレームを予測するための新しいアプローチである WALDO (WArping Layer-Decomposed Objects) を紹介します。
個々の画像は、オブジェクト マスクとコントロール ポイントの小さなセットを組み合わせた複数のレイヤーに分解されます。
レイヤー構造は、各ビデオのすべてのフレームで共有され、密なフレーム間接続を構築します。
複雑なシーンの動きは、個々のレイヤーに関連付けられたパラメトリック幾何学的変換を組み合わせることでモデル化され、ビデオ合成は、過去のフレームに関連付けられたレイヤーの検出、次のフレームに対応する変換の予測、それに応じて関連するオブジェクト領域のワープ、および残りのフレームの埋め込みに分解されます。
イメージパーツ。
都市のビデオ (Cityscapes と KITTI) や非剛体の動きを特徴とするビデオ (UCF-Sports と H3.6M) を含む複数のベンチマークに関する広範な実験では、すべてのケースで、私たちの方法が最新技術よりも一貫して大幅に優れていることが示されています。
私たちのアプローチによって合成されたコード、事前トレーニング済みのモデル、およびビデオ サンプルは、プロジェクトの Web ページ https://16lemoing.github.io/waldo にあります。
要約(オリジナル)
This paper presents WALDO (WArping Layer-Decomposed Objects), a novel approach to the prediction of future video frames from past ones. Individual images are decomposed into multiple layers combining object masks and a small set of control points. The layer structure is shared across all frames in each video to build dense inter-frame connections. Complex scene motions are modeled by combining parametric geometric transformations associated with individual layers, and video synthesis is broken down into discovering the layers associated with past frames, predicting the corresponding transformations for upcoming ones and warping the associated object regions accordingly, and filling in the remaining image parts. Extensive experiments on multiple benchmarks including urban videos (Cityscapes and KITTI) and videos featuring nonrigid motions (UCF-Sports and H3.6M), show that our method consistently outperforms the state of the art by a significant margin in every case. Code, pretrained models, and video samples synthesized by our approach can be found in the project webpage https://16lemoing.github.io/waldo.
arxiv情報
著者 | Guillaume Le Moing,Jean Ponce,Cordelia Schmid |
発行日 | 2023-03-21 15:22:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google