Aggregating Long-term Sharp Features via Hybrid Transformers for Video Deblurring

要約

特定のぼやけたビデオから連続した鮮明なフレームを復元することを目的としたビデオのぼけ除去方法は、通常、入力ビデオに連続的にぼやけたフレームがあることを前提としています。
ただし、最新の画像デバイスで撮影された現実のぼやけたビデオでは、通常、特定のビデオ内に鮮明なフレームが表示されるため、ぼやけたフレームの復元を容易にするために、時間的に長期にわたる鮮明な特徴が利用可能になります。
この研究では、隣接するフレームの両方を活用し、特徴集約にハイブリッド トランスフォーマーを使用して鮮明なフレームを表示するビデオのブレ除去方法を提案します。
具体的には、まずぼやけ認識検出器をトレーニングして、鮮明なフレームとぼやけたフレームを区別します。
次に、ウィンドウベースのローカル Transformer が隣接フレームからの特徴を活用するために使用されます。クロス アテンションは、明示的な空間調整を行わずに隣接フレームからの特徴を集約するのに有益です。
検出されたシャープなフレームから長期的なシャープな特徴を集約するために、マルチスケール マッチング機能を備えたグローバル トランスフォーマーを利用します。
さらに、私たちの方法は、イベント フュージョン モジュールをグローバル Transformer に組み込むことで、イベント駆動型のビデオぼけ除去に簡単に拡張できます。
ベンチマーク データセットに関する広範な実験により、私たちの提案した方法が、定量的指標と視覚的品質の点で、最先端のビデオぼやけ除去方法やイベント駆動型ビデオぼけ除去方法よりも優れていることが実証されました。
ソース コードとトレーニング済みモデルは https://github.com/shangwei5/STGTN で入手できます。

要約(オリジナル)

Video deblurring methods, aiming at recovering consecutive sharp frames from a given blurry video, usually assume that the input video suffers from consecutively blurry frames. However, in real-world blurry videos taken by modern imaging devices, sharp frames usually appear in the given video, thus making temporal long-term sharp features available for facilitating the restoration of a blurry frame. In this work, we propose a video deblurring method that leverages both neighboring frames and present sharp frames using hybrid Transformers for feature aggregation. Specifically, we first train a blur-aware detector to distinguish between sharp and blurry frames. Then, a window-based local Transformer is employed for exploiting features from neighboring frames, where cross attention is beneficial for aggregating features from neighboring frames without explicit spatial alignment. To aggregate long-term sharp features from detected sharp frames, we utilize a global Transformer with multi-scale matching capability. Moreover, our method can easily be extended to event-driven video deblurring by incorporating an event fusion module into the global Transformer. Extensive experiments on benchmark datasets demonstrate that our proposed method outperforms state-of-the-art video deblurring methods as well as event-driven video deblurring methods in terms of quantitative metrics and visual quality. The source code and trained models are available at https://github.com/shangwei5/STGTN.

arxiv情報

著者 Dongwei Ren,Wei Shang,Yi Yang,Wangmeng Zuo
発行日 2023-09-13 16:12:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4.3 パーマリンク