A Practical Gated Recurrent Transformer Network Incorporating Multiple Fusions for Video Denoising

要約

最先端の (SOTA) ビデオノイズ除去方法は、マルチフレーム同時ノイズ除去メカニズムを採用しているため、大幅な遅延 (例: 16 フレーム) が発生し、リアルタイム カメラでは実用的ではありません。
この制限を克服するために、わずか 1 フレームの遅延で SOTA ノイズ除去性能を達成するマルチフュージョン ゲートリカレント トランスフォーマー ネットワーク (GRTN) を提案します。
具体的には、空間ノイズ除去モジュールは現在のフレームから特徴を抽出し、リセット ゲートは前のフレームから関連情報を選択し、時間ノイズ除去モジュールを介して現在のフレームの特徴と融合します。
次に、更新ゲートはこの結果を以前のフレームの特徴とさらにブレンドし、再構成モジュールはそれを現在のフレームと統合します。
ノイズの多い特徴に対するアテンションをロバストに計算するために、空間的および時間的ノイズ除去モジュールでユークリッド距離を使用した残差単純化 Swin Transformer (RSSTE) を提案します。
客観的結果と主観的結果を比較すると、当社の GRTN は、わずか 1 フレームの遅延で、SOTA マルチフレーム遅延ネットワークに匹敵するノイズ除去性能を達成していることがわかります。

要約(オリジナル)

State-of-the-art (SOTA) video denoising methods employ multi-frame simultaneous denoising mechanisms, resulting in significant delays (e.g., 16 frames), making them impractical for real-time cameras. To overcome this limitation, we propose a multi-fusion gated recurrent Transformer network (GRTN) that achieves SOTA denoising performance with only a single-frame delay. Specifically, the spatial denoising module extracts features from the current frame, while the reset gate selects relevant information from the previous frame and fuses it with current frame features via the temporal denoising module. The update gate then further blends this result with the previous frame features, and the reconstruction module integrates it with the current frame. To robustly compute attention for noisy features, we propose a residual simplified Swin Transformer with Euclidean distance (RSSTE) in the spatial and temporal denoising modules. Comparative objective and subjective results show that our GRTN achieves denoising performance comparable to SOTA multi-frame delay networks, with only a single-frame delay.

arxiv情報

著者 Kai Guo,Seungwon Choi,Jongseong Choi,Lae-Hoon Kim
発行日 2024-09-10 15:55:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク