Cascaded Temporal Updating Network for Efficient Video Super-Resolution

要約

既存のビデオ超解像度 (VSR) 手法は一般に、再帰伝播ネットワークを採用してビデオ シーケンス全体から時空間情報を抽出し、優れたパフォーマンスを示します。
ただし、リカレントベースの VSR ネットワークの主要コンポーネントはモデルの効率に大きく影響します。たとえば、アライメント モジュールはモデル パラメーターのかなりの部分を占め、双方向伝播メカニズムにより推論時間が大幅に増大します。
したがって、スマートフォンなどのリソースに制約のあるデバイスに導入できる、コンパクトで効率的な VSR 手法の開発は依然として困難です。
この目的を達成するために、効率的な VSR のためのカスケード時間更新ネットワーク (CTUN) を提案します。
まず、隣接するフレームからの時空間対応を調査するための暗黙的なカスケード位置合わせモジュールを開発します。
さらに、高品質のビデオ再構成に不可欠な長距離の時間情報を効率的に探索するための一方向伝播更新ネットワークを提案します。
具体的には、将来の情報を活用して順伝播中に隠れた特徴を更新できる、シンプルでありながら効果的な隠れたアップデーターを開発し、パフォーマンスを維持しながら推論時間を大幅に短縮します。
最後に、これらすべてのコンポーネントをエンドツーエンドのトレーニング可能な VSR ネットワークに定式化します。
広範な実験結果は、当社の CTUN が既存の方法と比較して効率とパフォーマンスの間で有利なトレードオフを達成していることを示しています。
特に、BasicVSR と比較して、私たちの方法はパラメーターと実行時間の約 30% のみを使用しながら、より良い結果が得られます。
ソース コードと事前トレーニングされたモデルは https://github.com/House-Leo/CTUN で入手できます。

要約(オリジナル)

Existing video super-resolution (VSR) methods generally adopt a recurrent propagation network to extract spatio-temporal information from the entire video sequences, exhibiting impressive performance. However, the key components in recurrent-based VSR networks significantly impact model efficiency, e.g., the alignment module occupies a substantial portion of model parameters, while the bidirectional propagation mechanism significantly amplifies the inference time. Consequently, developing a compact and efficient VSR method that can be deployed on resource-constrained devices, e.g., smartphones, remains challenging. To this end, we propose a cascaded temporal updating network (CTUN) for efficient VSR. We first develop an implicit cascaded alignment module to explore spatio-temporal correspondences from adjacent frames. Moreover, we propose a unidirectional propagation updating network to efficiently explore long-range temporal information, which is crucial for high-quality video reconstruction. Specifically, we develop a simple yet effective hidden updater that can leverage future information to update hidden features during forward propagation, significantly reducing inference time while maintaining performance. Finally, we formulate all of these components into an end-to-end trainable VSR network. Extensive experimental results show that our CTUN achieves a favorable trade-off between efficiency and performance compared to existing methods. Notably, compared with BasicVSR, our method obtains better results while employing only about 30% of the parameters and running time. The source code and pre-trained models will be available at https://github.com/House-Leo/CTUN.

arxiv情報

著者 Hao Li,Jiangxin Dong,Jinshan Pan
発行日 2024-08-26 12:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク