Scale-Adaptive Feature Aggregation for Efficient Space-Time Video Super-Resolution

要約

時空ビデオ超解像度 (STVSR) タスクは、ビデオ フレーム補間 (VFI) とビデオ超解像度 (VSR) を同時に実行することにより、ビデオの視覚品質を向上させることを目的としています。
しかし、追加の時間次元とスケールの不一致という課題に直面しているため、既存の STVSR 手法のほとんどは複雑であり、さまざまな動きの振幅を動的にモデル化するのに柔軟性がありません。
この研究では、適切な処理スケールを選択すると、フローベースの特徴伝播において顕著な利点が得られることがわかりました。
我々は、個々のサンプルに対して異なる処理スケールを持つサブネットワークを適応的に選択する新しいスケール適応型特徴集約 (SAFA) ネットワークを提案します。
4 つの公開 STVSR ベンチマークの実験により、SAFA が最先端のパフォーマンスを達成することが実証されました。
当社の SAFA ネットワークは、TMNet や VideoINR などの最近の最先端の方法よりも PSNR で平均 0.5dB 以上の改善を示し、必要なパラメータ数は半分以下、計算コストは​​わずか 1/3 です。

要約(オリジナル)

The Space-Time Video Super-Resolution (STVSR) task aims to enhance the visual quality of videos, by simultaneously performing video frame interpolation (VFI) and video super-resolution (VSR). However, facing the challenge of the additional temporal dimension and scale inconsistency, most existing STVSR methods are complex and inflexible in dynamically modeling different motion amplitudes. In this work, we find that choosing an appropriate processing scale achieves remarkable benefits in flow-based feature propagation. We propose a novel Scale-Adaptive Feature Aggregation (SAFA) network that adaptively selects sub-networks with different processing scales for individual samples. Experiments on four public STVSR benchmarks demonstrate that SAFA achieves state-of-the-art performance. Our SAFA network outperforms recent state-of-the-art methods such as TMNet and VideoINR by an average improvement of over 0.5dB on PSNR, while requiring less than half the number of parameters and only 1/3 computational costs.

arxiv情報

著者 Zhewei Huang,Ailin Huang,Xiaotao Hu,Chen Hu,Jun Xu,Shuchang Zhou
発行日 2023-11-24 09:47:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク