要約
リカレント ニューラル ネットワーク (RNN) は、将来のビデオ フレーム予測の優れた機能を示しますが、離散時間空間でダイナミクスをモデル化します。つまり、固定された時間ステップでフレームを順次予測します。
したがって、RNN は、将来のフレーム数が増加するにつれてエラーを蓄積する傾向があります。
対照的に、偏微分方程式 (PDE) は、連続時間空間におけるダイナミクスなどの物理現象をモデル化します。
ただし、フレーム予測の推定 PDE は、数値的に解く必要があります。これは、PDE の離散化によって行われ、離散モデルと比較した利点のほとんどが減少します。
したがって、この作業では、ビデオの動きをテイラー級数を使用した連続関数で近似することを提案します。
この目的のために、特定の入力ビデオのテイラー級数の高次項を推定することを学習する、新しい畳み込みニューラル ネットワークである TaylorSwiftNet を紹介します。
TaylorSwiftNet は、将来のフレームを並行して迅速に予測でき、オンザフライで予測フレームの時間分解能を変更できます。
さまざまなデータセットでの実験結果は、モデルの優位性を示しています。
要約(オリジナル)
While recurrent neural networks (RNNs) demonstrate outstanding capabilities for future video frame prediction, they model dynamics in a discrete time space, i.e., they predict the frames sequentially with a fixed temporal step. RNNs are therefore prone to accumulate the error as the number of future frames increases. In contrast, partial differential equations (PDEs) model physical phenomena like dynamics in a continuous time space. However, the estimated PDE for frame forecasting needs to be numerically solved, which is done by discretization of the PDE and diminishes most of the advantages compared to discrete models. In this work, we, therefore, propose to approximate the motion in a video by a continuous function using the Taylor series. To this end, we introduce TaylorSwiftNet, a novel convolutional neural network that learns to estimate the higher order terms of the Taylor series for a given input video. TaylorSwiftNet can swiftly predict future frames in parallel and it allows to change the temporal resolution of the forecast frames on-the-fly. The experimental results on various datasets demonstrate the superiority of our model.
arxiv情報
著者 | Saber Pourheydari,Emad Bahrami,Mohsen Fayyaz,Gianpiero Francesca,Mehdi Noroozi,Juergen Gall |
発行日 | 2022-10-12 17:59:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google