Masked Autoencoders as Image Processors

要約

タイトル:画像処理のためのマスクされた自己符号化器

要約:

– トランスフォーマーは、高度なビジョンと低レベルなビジョンの両方のビジョンタスクにおいて、有意な効果を示しています。
– 最近、特徴の事前学習のためのマスクされた自己符号化器(MAE)がトランスフォーマーの潜在能力を引き出し、様々な高度なビジョンタスクにおける最先端の性能につながっています。
– しかしながら、MAE事前学習の低レベルなビジョンタスクに対する重要性が十分に探究されていません。
– 本論文では、マスクされた自己符号化器が画像処理タスクにおいてもスケーラブルな自己監督学習器であることを示します。
– まず、チャンネルアテンションとシフトウィンドウベースの自己注意を考慮した効率的なトランスフォーマーモデルであるCSformerを提案します。
– 次に、画像処理(MAEIP)タスクに対する効果的なMAEアーキテクチャを開発します。
– 豊富な実験結果は、MAEIP事前学習の助けを得て、提案したCSformerがガウスノイズ除去、実画像ノイズ除去、単一画像モーションのぼかし、フォーカスのぼやけ、および画像除雨などの様々な画像処理タスクにおいて最先端の性能を発揮することを示しています。

要約(オリジナル)

Transformers have shown significant effectiveness for various vision tasks including both high-level vision and low-level vision. Recently, masked autoencoders (MAE) for feature pre-training have further unleashed the potential of Transformers, leading to state-of-the-art performances on various high-level vision tasks. However, the significance of MAE pre-training on low-level vision tasks has not been sufficiently explored. In this paper, we show that masked autoencoders are also scalable self-supervised learners for image processing tasks. We first present an efficient Transformer model considering both channel attention and shifted-window-based self-attention termed CSformer. Then we develop an effective MAE architecture for image processing (MAEIP) tasks. Extensive experimental results show that with the help of MAEIP pre-training, our proposed CSformer achieves state-of-the-art performance on various image processing tasks, including Gaussian denoising, real image denoising, single-image motion deblurring, defocus deblurring, and image deraining.

arxiv情報

著者 Huiyu Duan,Wei Shen,Xiongkuo Min,Danyang Tu,Long Teng,Jia Wang,Guangtao Zhai
発行日 2023-03-30 12:09:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク