Aggregating Nearest Sharp Features via Hybrid Transformers for Video Deblurring

要約

特定のぼやけたビデオから連続した鮮明なフレームを復元することを目的としたビデオのぼけ除去方法は、通常、入力ビデオに連続的にぼやけたフレームがあることを前提としています。
ただし、最新の画像デバイスでキャプチャされた現実世界のシナリオでは、鮮明なフレームがビデオ内に散在することが多く、ぼやけたフレームの復元に役立つ、時間的に最も近い鮮明な特徴が提供されます。
この研究では、特徴の集約にハイブリッド トランスフォーマーを使用して、隣接するフレームと既存の鮮明なフレームの両方を活用するビデオのブレ除去方法を提案します。
具体的には、まずぼやけ認識検出器をトレーニングして、鮮明なフレームとぼやけたフレームを区別します。
次に、ウィンドウベースのローカル Transformer が隣接フレームからの特徴を活用するために使用されます。クロス アテンションは、明示的な空間調整を行わずに隣接フレームからの特徴を集約するのに有益です。
検出されたシャープ フレームから最も近いシャープな特徴を集約するために、マルチスケール マッチング機能を備えたグローバル トランスフォーマーを利用します。
さらに、私たちの方法は、イベント フュージョン モジュールをグローバル Transformer に組み込むことで、イベント駆動型のビデオぼけ除去に簡単に拡張できます。
ベンチマーク データセットに関する広範な実験により、私たちの提案した方法が、定量的指標と視覚的品質の点で、最先端のビデオぼやけ除去方法やイベント駆動型ビデオぼけ除去方法よりも優れていることが実証されました。
ソース コードとトレーニング済みモデルは https://github.com/shangwei5/STGTN で入手できます。

要約(オリジナル)

Video deblurring methods, aiming at recovering consecutive sharp frames from a given blurry video, usually assume that the input video suffers from consecutively blurry frames. However, in real-world scenarios captured by modern imaging devices, sharp frames often interspersed within the video, providing temporally nearest sharp features that can aid in the restoration of blurry frames. In this work, we propose a video deblurring method that leverages both neighboring frames and existing sharp frames using hybrid Transformers for feature aggregation. Specifically, we first train a blur-aware detector to distinguish between sharp and blurry frames. Then, a window-based local Transformer is employed for exploiting features from neighboring frames, where cross attention is beneficial for aggregating features from neighboring frames without explicit spatial alignment. To aggregate nearest sharp features from detected sharp frames, we utilize a global Transformer with multi-scale matching capability. Moreover, our method can easily be extended to event-driven video deblurring by incorporating an event fusion module into the global Transformer. Extensive experiments on benchmark datasets demonstrate that our proposed method outperforms state-of-the-art video deblurring methods as well as event-driven video deblurring methods in terms of quantitative metrics and visual quality. The source code and trained models are available at https://github.com/shangwei5/STGTN.

arxiv情報

著者 Wei Shang,Dongwei Ren,Yi Yang,Wangmeng Zuo
発行日 2024-11-29 15:59:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4.3 パーマリンク