Transcending the Limit of Local Window: Advanced Super-Resolution Transformer with Adaptive Token Dictionary

要約

単一画像超解像度は、低解像度 (LR) 画像から高解像度 (HR) 画像を推定する古典的なコンピューター ビジョンの問題です。
ディープ ニューラル ネットワーク (DNN)、特に超解像度のトランスフォーマーは近年大幅な進歩を遂げていますが、特にウィンドウベースの自己注意によって引き起こされる限られた受容野においては課題がまだ残っています。
これらの問題に対処するために、SR Transformer に補助的な Adapeive トークン ディクショナリのグループを導入し、ATD-SR メソッドを確立します。
導入されたトークン辞書は、トレーニング データから事前情報を学習し、適応的改良ステップを通じて特定のテスト画像の前に学習した情報を適応させることができます。
改良戦略は、すべての入力トークンにグローバル情報を提供するだけでなく、画像トークンをカテゴリにグループ化することもできます。
カテゴリパーティションに基づいて、入力特徴を強化するために遠く離れているが類似したトークンを活用するように設計されたカテゴリベースのセルフアテンションメカニズムをさらに提案します。
実験結果は、私たちの方法がさまざまな単一画像の超解像度ベンチマークで最高のパフォーマンスを達成することを示しています。

要約(オリジナル)

Single Image Super-Resolution is a classic computer vision problem that involves estimating high-resolution (HR) images from low-resolution (LR) ones. Although deep neural networks (DNNs), especially Transformers for super-resolution, have seen significant advancements in recent years, challenges still remain, particularly in limited receptive field caused by window-based self-attention. To address these issues, we introduce a group of auxiliary Adapeive Token Dictionary to SR Transformer and establish an ATD-SR method. The introduced token dictionary could learn prior information from training data and adapt the learned prior to specific testing image through an adaptive refinement step. The refinement strategy could not only provide global information to all input tokens but also group image tokens into categories. Based on category partitions, we further propose a category-based self-attention mechanism designed to leverage distant but similar tokens for enhancing input features. The experimental results show that our method achieves the best performance on various single image super-resolution benchmarks.

arxiv情報

著者 Leheng Zhang,Yawei Li,Xingyu Zhou,Xiaorui Zhao,Shuhang Gu
発行日 2024-01-16 08:50:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク