CascadedGaze: Efficiency in Global Context Extraction for Image Restoration

要約

画像復元タスクは従来、畳み込みニューラル ネットワークに依存していました。
ただし、畳み込み演算子のローカルな性質を考慮すると、グローバルな情報を取得するのは困難です。
Transformers のアテンション メカニズムはこの問題を回避できると期待されていますが、それには大量の計算オーバーヘッドがかかります。
画像復元に関する最近の研究の多くは、Transformer のバリアントを使用してパフォーマンスと計算コストのバランスをとるという課題の解決に焦点を当てています。
この論文では、画像復元のためのグローバル情報を取得する新規かつ効率的な方法である Global Context Extractor (GCE) を採用したエンコーダ/デコーダ アーキテクチャである CascadedGaze Network (CGNet) を紹介します。
GCE モジュールは、畳み込み層全体で小さなカーネルを利用して、自己注意を必要とせずにグローバルな依存関係を学習します。
広範な実験結果は、私たちの計算効率の高いアプローチが、合成画像のノイズ除去および単一画像のブレ除去タスクに関してさまざまな最先端の方法と競合して実行し、実画像のノイズ除去タスクではパフォーマンスの限界をさらに押し上げることを示しています。

要約(オリジナル)

Image restoration tasks traditionally rely on convolutional neural networks. However, given the local nature of the convolutional operator, they struggle to capture global information. The promise of attention mechanisms in Transformers is to circumvent this problem, but it comes at the cost of intensive computational overhead. Many recent studies in image restoration have focused on solving the challenge of balancing performance and computational cost via Transformer variants. In this paper, we present CascadedGaze Network (CGNet), an encoder-decoder architecture that employs Global Context Extractor (GCE), a novel and efficient way to capture global information for image restoration. The GCE module leverages small kernels across convolutional layers to learn global dependencies, without requiring self-attention. Extensive experimental results show that our computationally efficient approach performs competitively to a range of state-of-the-art methods on synthetic image denoising and single image deblurring tasks, and pushes the performance boundary further on the real image denoising task.

arxiv情報

著者 Amirhosein Ghasemabadi,Muhammad Kamran Janjua,Mohammad Salameh,Chunhua Zhou,Fengyu Sun,Di Niu
発行日 2024-05-07 16:32:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク