要約
単一画像の超解像度における最近の進歩は、主にトークン ミキサーとトランスフォーマー アーキテクチャによって推進されています。
WaveMixSR は、WaveMix アーキテクチャを利用し、空間トークン混合に 2 次元離散ウェーブレット変換を採用し、驚異的なリソース効率で超解像度タスクで優れたパフォーマンスを実現しました。
この研究では、(1) 従来の転置畳み込み層をピクセル シャッフル操作に置き換え、(2) 高解像度タスク用の多段階設計を実装することによって、WaveMixSR アーキテクチャの拡張バージョンを提示します ($4\times$)。
私たちの実験では、強化されたモデル — WaveMixSR-V2 — が複数の超解像度タスクで他のアーキテクチャを上回っており、BSD100 データセットの最先端を達成しながら、消費リソースが少なく、より高いパラメータ効率とより低いレイテンシを示していることが実証されました。
そしてより高いスループット。
私たちのコードは https://github.com/pranavphoenix/WaveMixSR で入手できます。
要約(オリジナル)
Recent advancements in single image super-resolution have been predominantly driven by token mixers and transformer architectures. WaveMixSR utilized the WaveMix architecture, employing a two-dimensional discrete wavelet transform for spatial token mixing, achieving superior performance in super-resolution tasks with remarkable resource efficiency. In this work, we present an enhanced version of the WaveMixSR architecture by (1) replacing the traditional transpose convolution layer with a pixel shuffle operation and (2) implementing a multistage design for higher resolution tasks ($4\times$). Our experiments demonstrate that our enhanced model — WaveMixSR-V2 — outperforms other architectures in multiple super-resolution tasks, achieving state-of-the-art for the BSD100 dataset, while also consuming fewer resources, exhibits higher parameter efficiency, lower latency and higher throughput. Our code is available at https://github.com/pranavphoenix/WaveMixSR.
arxiv情報
著者 | Pranav Jeevan,Neeraj Nixon,Amit Sethi |
発行日 | 2024-10-30 15:16:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google