要約
ビデオ予測は、過去のフレームが与えられた場合に将来のフレームを予測する外挿タスクであり、ビデオフレーム補間は、2つのフレーム間の中間フレームを推定する補間タスクです。
ビデオフレーム補間の驚異的な進歩を目の当たりにしましたが、実際の一般的なビデオ予測は未解決の問題です。
ビデオフレーム補間のフォトリアリスティックな結果に触発されて、ビデオフレーム補間によるビデオ予測のための新しい最適化フレームワークを提示します。このフレームワークでは、補間モデルに基づいて外挿問題を解決します。
私たちのビデオ予測フレームワークは、トレーニングデータセットを必要とせずに、事前にトレーニングされた微分可能なビデオフレーム補間モジュールを使用した最適化に基づいているため、トレーニングデータとテストデータの間にドメインギャップの問題はありません。
また、私たちのアプローチでは、セマンティックマップやインスタンスマップなどの追加情報を必要としないため、フレームワークをあらゆるビデオに適用できます。
Cityscapes、KITTI、DAVIS、Middlebury、およびVimeo90Kデータセットでの広範な実験は、ビデオ予測結果が一般的なシナリオで堅牢であり、私たちのアプローチが大量のトレーニングデータまたは追加のセマンティック情報を必要とする他のビデオ予測方法よりも優れていることを示しています。
要約(オリジナル)
Video prediction is an extrapolation task that predicts future frames given past frames, and video frame interpolation is an interpolation task that estimates intermediate frames between two frames. We have witnessed the tremendous advancement of video frame interpolation, but the general video prediction in the wild is still an open question. Inspired by the photo-realistic results of video frame interpolation, we present a new optimization framework for video prediction via video frame interpolation, in which we solve an extrapolation problem based on an interpolation model. Our video prediction framework is based on optimization with a pretrained differentiable video frame interpolation module without the need for a training dataset, and thus there is no domain gap issue between training and test data. Also, our approach does not need any additional information such as semantic or instance maps, which makes our framework applicable to any video. Extensive experiments on the Cityscapes, KITTI, DAVIS, Middlebury, and Vimeo90K datasets show that our video prediction results are robust in general scenarios, and our approach outperforms other video prediction methods that require a large amount of training data or extra semantic information.
arxiv情報
著者 | Yue Wu,Qiang Wen,Qifeng Chen |
発行日 | 2022-06-27 17:03:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google