Enhancing Deformable Convolution based Video Frame Interpolation with Coarse-to-fine 3D CNN

要約

この論文では、粗いから細かい 3D CNN を使用してマルチフロー予測を強化する、新しい変形可能な畳み込みベースのビデオ フレーム補間 (VFI) 方法を紹介します。
このモデルは、まず 3D CNN を使用して複数のスケールで時空間特徴を抽出し、これらの特徴を使用して粗い方法から細かい方法までマルチフローを推定します。
次に、推定されたマルチフローを使用して元の入力フレームとコンテキスト マップがワープされ、ワー​​プされた結果が合成ネットワークによって融合されて最終出力が生成されます。
この VFI アプローチは、一般的に使用される 3 つのテスト データベースで 12 の最先端の VFI メソッドに対して完全に評価されています。
この結果は、提案された方法の有効性を明らかに示しており、最大 0.19dB の PSNR ゲインを備え、他の最先端のアルゴリズムよりも優れた補間パフォーマンスを提供します。

要約(オリジナル)

This paper presents a new deformable convolution-based video frame interpolation (VFI) method, using a coarse to fine 3D CNN to enhance the multi-flow prediction. This model first extracts spatio-temporal features at multiple scales using a 3D CNN, and estimates multi-flows using these features in a coarse-to-fine manner. The estimated multi-flows are then used to warp the original input frames as well as context maps, and the warped results are fused by a synthesis network to produce the final output. This VFI approach has been fully evaluated against 12 state-of-the-art VFI methods on three commonly used test databases. The results evidently show the effectiveness of the proposed method, which offers superior interpolation performance over other state of the art algorithms, with PSNR gains up to 0.19dB.

arxiv情報

著者 Duolikun Danier,Fan Zhang,David Bull
発行日 2023-06-22 12:58:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク