要約
映像フレーム補間(VFI)は、双方向の履歴参照から学習可能なモーションをワーピングすることで予測フレームを生成することを目的としている。多くの既存研究では、時空間意味情報抽出器を用いて動作推定と補間モデリングを実現しているが、生成される中間動作の実際のメカニズム的合理性については十分に考慮されていない。本論文では、VFIを多変数非線形回帰問題として定式化し、フレーム間の複雑な運動をモデル化するための共同非線形運動回帰(JNMR)戦略を提案する。MNL回帰を確立するために、ConvLSTMを採用し、時間次元での完全な動作の分布を構築する。このモデル化された分布により、ターゲットフレームと複数の参照フレーム間の運動相関を回帰することができる。さらに、特徴学習ネットワークは、MNL回帰のモデリングに最適化するように設計されている。さらに、粗から細への合成強化モジュールが行われ、回帰と補間の繰り返しにより、異なる解像度での視覚ダイナミクスを学習する。フレーム補間に関する高い競争力のある実験結果は、MNL動作回帰により、その有効性と最新性能と比較して大幅な改善、および複雑な動作推定の頑健性が改善されることを示している。
要約(オリジナル)
Video frame interpolation (VFI) aims to generate predictive frames by warping learnable motions from the bidirectional historical references. Most existing works utilize spatio-temporal semantic information extractor to realize motion estimation and interpolation modeling, not enough considering with the real mechanistic rationality of generated middle motions. In this paper, we reformulate VFI as a multi-variable non-linear (MNL) regression problem, and a Joint Non-linear Motion Regression (JNMR) strategy is proposed to model complicated motions of inter-frame. To establish the MNL regression, ConvLSTM is adopted to construct the distribution of complete motions in temporal dimension. The motion correlations between the target frame and multiple reference frames can be regressed by the modeled distribution. Moreover, the feature learning network is designed to optimize for the MNL regression modeling. A coarse-to-fine synthesis enhancement module is further conducted to learn visual dynamics at different resolutions through repetitive regression and interpolation. Highly competitive experimental results on frame interpolation show that the effectiveness and significant improvement compared with state-of-the-art performance, and the robustness of complicated motion estimation is improved by the MNL motion regression.
arxiv情報
著者 | Meiqin Liu,Chenming Xu,Chao Yao,Chunyu Lin,Yao Zhao |
発行日 | 2022-06-09 02:47:29+00:00 |
arxivサイト | arxiv_id(pdf) |