Extracting Motion and Appearance via Inter-Frame Attention for Efficient Video Frame Interpolation


ビデオ フレーム補間 (VFI) では、フレーム間の動きと外観の情報を効果的に抽出することが重要です。
具体的には、フレーム間アテンションの情報処理を再考し、そのアテンション マップを外観特徴の強調とモーション情報の抽出の両方に再利用します。
さらに、効率的な VFI のために、提案されたモジュールをハイブリッド CNN および Transformer アーキテクチャにシームレスに統合できます。
このハイブリッド パイプラインは、フレーム間の注意の計算の複雑さを軽減し、詳細な低レベル構造情報を保持できます。
ソース コードとモデルは、https://github.com/MCG-NJU/EMA-VFI で入手できます。


Effectively extracting inter-frame motion and appearance information is important for video frame interpolation (VFI). Previous works either extract both types of information in a mixed way or elaborate separate modules for each type of information, which lead to representation ambiguity and low efficiency. In this paper, we propose a novel module to explicitly extract motion and appearance information via a unifying operation. Specifically, we rethink the information process in inter-frame attention and reuse its attention map for both appearance feature enhancement and motion information extraction. Furthermore, for efficient VFI, our proposed module could be seamlessly integrated into a hybrid CNN and Transformer architecture. This hybrid pipeline can alleviate the computational complexity of inter-frame attention as well as preserve detailed low-level structure information. Experimental results demonstrate that, for both fixed- and arbitrary-timestep interpolation, our method achieves state-of-the-art performance on various datasets. Meanwhile, our approach enjoys a lighter computation overhead over models with close performance. The source code and models are available at https://github.com/MCG-NJU/EMA-VFI.


著者 Guozhen Zhang,Yuhan Zhu,Haonan Wang,Youxin Chen,Gangshan Wu,Limin Wang
発行日 2023-03-01 12:00:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク