VRT: A Video Restoration Transformer

要約

ビデオの復元(ビデオの超解像など)は、低品質のフレームから高品質のフレームを復元することを目的としています。
単一の画像の復元とは異なり、ビデオの復元では通常、隣接しているが通常は位置がずれている複数のビデオフレームからの時間情報を利用する必要があります。
既存のディープメソッドは、一般に、スライディングウィンドウ戦略またはリカレントアーキテクチャを利用することでこれに対処します。これは、フレームごとの復元によって制限されるか、長距離モデリング機能が不足しています。
本論文では、並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ復元トランス(VRT)を提案します。
より具体的には、VRTは複数のスケールで構成されており、各スケールは、時間的相互自己注意(TMSA)と並列ワーピングの2種類のモジュールで構成されています。
TMSAは、ビデオを小さなクリップに分割します。このクリップでは、関節の動きの推定、特徴の位置合わせ、特徴の融合に相互注意が適用され、特徴の抽出には自己注意が使用されます。
クロスクリップインタラクションを有効にするために、ビデオシーケンスは1つおきのレイヤーにシフトされます。
さらに、平行ワーピングは、平行フィーチャーワーピングによって隣接するフレームからの情報をさらに融合するために使用されます。
ビデオ超解像、ビデオブレ除去、ビデオノイズ除去、ビデオフレーム補間、時空間ビデオ超解像を含む5つのタスクの実験結果は、VRTが最先端の方法を大幅に上回っていることを示しています($ \ textbf
{最大2.16dB}$)14のベンチマークデータセット。

要約(オリジナル)

Video restoration (e.g., video super-resolution) aims to restore high-quality frames from low-quality frames. Different from single image restoration, video restoration generally requires to utilize temporal information from multiple adjacent but usually misaligned video frames. Existing deep methods generally tackle with this by exploiting a sliding window strategy or a recurrent architecture, which either is restricted by frame-by-frame restoration or lacks long-range modelling ability. In this paper, we propose a Video Restoration Transformer (VRT) with parallel frame prediction and long-range temporal dependency modelling abilities. More specifically, VRT is composed of multiple scales, each of which consists of two kinds of modules: temporal mutual self attention (TMSA) and parallel warping. TMSA divides the video into small clips, on which mutual attention is applied for joint motion estimation, feature alignment and feature fusion, while self attention is used for feature extraction. To enable cross-clip interactions, the video sequence is shifted for every other layer. Besides, parallel warping is used to further fuse information from neighboring frames by parallel feature warping. Experimental results on five tasks, including video super-resolution, video deblurring, video denoising, video frame interpolation and space-time video super-resolution, demonstrate that VRT outperforms the state-of-the-art methods by large margins ($\textbf{up to 2.16dB}$) on fourteen benchmark datasets.

arxiv情報

著者 Jingyun Liang,Jiezhang Cao,Yuchen Fan,Kai Zhang,Rakesh Ranjan,Yawei Li,Radu Timofte,Luc Van Gool
発行日 2022-06-15 17:17:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク