Sliding Window Recurrent Network for Efficient Video Super-Resolution

要約

ビデオ超解像 (VSR) は、一連の低解像度入力から高解像度フレームを復元するタスクです。
単一画像の超解像とは異なり、VSR はフレームの時間情報を利用して、より詳細な結果を再構築できます。
最近、畳み込みニューラル ネットワーク (CNN) の急速な発展に伴い、VSR タスクがますます注目を集めており、多くの CNN ベースの手法が目覚ましい成果を上げています。
ただし、計算リソースとランタイムの制限により、実際のモバイル デバイスに適用できる VSR アプローチはごくわずかです。
この論文では、優れたパフォーマンスを達成しながらリアルタイムで推論できる \textit{Sliding Window based Recurrent Network} (SWRN) を提案します。
具体的には、ビデオ フレームには、詳細を復元するのに役立つ空間的および時間的な関係が必要であることに気付きました。重要なポイントは、情報を抽出して集約する方法です。
それに対処するには、隣接する 3 つのフレームを入力し、非表示状態を利用して、重要な時間情報を繰り返し格納および更新します。
REDS データセットに対する私たちの実験は、提案された方法がモバイル デバイスにうまく適応し、視覚的に快適な結果を生成できることを示しています。

要約(オリジナル)

Video super-resolution (VSR) is the task of restoring high-resolution frames from a sequence of low-resolution inputs. Different from single image super-resolution, VSR can utilize frames’ temporal information to reconstruct results with more details. Recently, with the rapid development of convolution neural networks (CNN), the VSR task has drawn increasing attention and many CNN-based methods have achieved remarkable results. However, only a few VSR approaches can be applied to real-world mobile devices due to the computational resources and runtime limitations. In this paper, we propose a \textit{Sliding Window based Recurrent Network} (SWRN) which can be real-time inference while still achieving superior performance. Specifically, we notice that video frames should have both spatial and temporal relations that can help to recover details, and the key point is how to extract and aggregate information. Address it, we input three neighboring frames and utilize a hidden state to recurrently store and update the important temporal information. Our experiment on REDS dataset shows that the proposed method can be well adapted to mobile devices and produce visually pleasant results.

arxiv情報

著者 Wenyi Lian,Wenjing Lian
発行日 2022-08-24 15:23:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク