要約
この記事では、極めて低いメモリ使用量でこれまで最高のパフォーマンスを実現する、焦点ぼけ除去用のスライディング ウィンドウ モデルを紹介します。
Swintormer と名付けられたこの方法は、拡散モデルを利用して、より詳細な画像の復元を支援する潜在的な事前特徴を生成します。
また、効率的な推論のために、スライディング ウィンドウ戦略を特殊な Transformer ブロックに拡張します。
さらに、積和演算 (Mac) をさらに最適化しました。
現在最高のパフォーマンスを誇る GRL 手法と比較して、当社の Swintormer モデルは計算の複雑さを 140.35 GMAC から 8.02 GMac に大幅に削減すると同時に、焦点ぼけ除去の信号対雑音比 (SNR) を 27.04 dB から 27.07 dB に改善します。
この新しい方法により、メモリが限られたデバイス上で高解像度の画像を処理できるようになり、潜在的なアプリケーション シナリオが大幅に拡大します。
この記事は、各ネットワーク モジュールが最終パフォーマンスに及ぼす影響を詳細に分析するアブレーション スタディで締めくくられています。
ソース コードとモデルは、Web サイト https://github.com/bnm6900030/swintormer で入手できます。
要約(オリジナル)
This article introduces a sliding window model for defocus deblurring that achieves the best performance to date with extremely low memory usage. Named Swintormer, the method utilizes a diffusion model to generate latent prior features that assist in restoring more detailed images. It also extends the sliding window strategy to specialized Transformer blocks for efficient inference. Additionally, we have further optimized Multiply-Accumulate operations (Macs). Compared to the currently top-performing GRL method, our Swintormer model drastically reduces computational complexity from 140.35 GMACs to 8.02 GMacs, while also improving the Signal-to-Noise Ratio (SNR) for defocus deblurring from 27.04 dB to 27.07 dB. This new method allows for the processing of higher resolution images on devices with limited memory, significantly expanding potential application scenarios. The article concludes with an ablation study that provides an in-depth analysis of the impact of each network module on final performance. The source code and model will be available at the following website: https://github.com/bnm6900030/swintormer.
arxiv情報
著者 | Kang Chen,Yuanjie Liu |
発行日 | 2024-01-11 13:35:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google