Recurrent Video Restoration Transformer with Guided Deformable Attention

要約

ビデオ復元は、複数の低品質フレームから複数の高品質フレームを復元することを目的としています。
既存のビデオ復元方法は、一般に2つの極端なケースに分類されます。つまり、すべてのフレームを並行して復元するか、フレームごとに繰り返し復元するため、さまざまな長所と短所が生じます。
通常、前者には時間情報の融合という利点があります。
ただし、モデルサイズが大きく、メモリを大量に消費するという問題があります。
後者は、フレーム間でパラメータを共有するため、モデルサイズが比較的小さくなります。
ただし、長距離の依存関係モデリング機能と並列化機能が不足しています。
本論文では、リカレントビデオ復元トランス、すなわちRVRTを提案することにより、2つのケースの利点を統合することを試みます。
RVRTは、グローバルに繰り返されるフレームワーク内でローカルの隣接フレームを並行して処理します。これにより、モデルのサイズ、有効性、および効率の間で適切なトレードオフを実現できます。
具体的には、RVRTはビデオを複数のクリップに分割し、以前に推測されたクリップ機能を使用して後続のクリップ機能を推定します。
各クリップ内で、さまざまなフレームフィーチャが、暗黙的なフィーチャ集約によって共同で更新されます。
さまざまなクリップ間で、ガイド付きの変形可能なアテンションは、クリップ間の位置合わせ用に設計されています。これにより、推測されたクリップ全体から複数の関連する位置が予測され、アテンションメカニズムによってそれらの機能が集約されます。
ビデオの超解像度、ブレ除去、およびノイズ除去に関する広範な実験は、提案されたRVRTが、バランスの取れたモデルサイズ、テストメモリ、およびランタイムを備えたベンチマークデータセットで最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Video restoration aims at restoring multiple high-quality frames from multiple low-quality frames. Existing video restoration methods generally fall into two extreme cases, i.e., they either restore all frames in parallel or restore the video frame by frame in a recurrent way, which would result in different merits and drawbacks. Typically, the former has the advantage of temporal information fusion. However, it suffers from large model size and intensive memory consumption; the latter has a relatively small model size as it shares parameters across frames; however, it lacks long-range dependency modeling ability and parallelizability. In this paper, we attempt to integrate the advantages of the two cases by proposing a recurrent video restoration transformer, namely RVRT. RVRT processes local neighboring frames in parallel within a globally recurrent framework which can achieve a good trade-off between model size, effectiveness, and efficiency. Specifically, RVRT divides the video into multiple clips and uses the previously inferred clip feature to estimate the subsequent clip feature. Within each clip, different frame features are jointly updated with implicit feature aggregation. Across different clips, the guided deformable attention is designed for clip-to-clip alignment, which predicts multiple relevant locations from the whole inferred clip and aggregates their features by the attention mechanism. Extensive experiments on video super-resolution, deblurring, and denoising show that the proposed RVRT achieves state-of-the-art performance on benchmark datasets with balanced model size, testing memory and runtime.

arxiv情報

著者 Jingyun Liang,Yuchen Fan,Xiaoyu Xiang,Rakesh Ranjan,Eddy Ilg,Simon Green,Jiezhang Cao,Kai Zhang,Radu Timofte,Luc Van Gool
発行日 2022-06-05 10:36:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク