Task-Aware Dynamic Transformer for Efficient Arbitrary-Scale Image Super-Resolution

要約

任意スケール超解像度 (ASSR) は、任意の拡大スケールでの画像超解像度の単一モデルを学習することを目的としています。
既存の ASSR ネットワークは通常、既製のスケールに依存しない特徴抽出器と任意のスケールのアップサンプラーで構成されています。
これらの特徴抽出器は多くの場合、固定ネットワーク アーキテクチャを使用してさまざまな ASSR 推論タスクに対処します。各タスクは入力画像とアップサンプリング スケールによって特徴付けられます。
ただし、これは、さまざまな推論シナリオにおける超解像の難易度の差異を見落としており、単純な画像や小さな SR スケールは、難しい画像や大きな SR スケールよりも少ない計算量で解決できる可能性があります。
この難易度の変動に取り組むために、この論文では、効率的な画像 ASSR のための入力適応型特徴抽出器としてタスク認識ダイナミック トランスフォーマー (TADT) を提案します。
当社の TADT は、マルチスケール変圧器ブロック (MSTB) のグループとタスク認識ルーティング コントローラー (TARC) に基づいて構築されたマルチスケール特徴抽出バックボーンで構成されています。
TARC は、特徴抽出バックボーン内の推論パスを予測し、特に入力画像と SR スケールに基づいて MSTB を選択します。
推論パスの予測は、SR の精度と効率をトレードオフする新しい損失関数によって導かれます。
実験では、3 つの一般的な任意スケールのアップサンプラーを使用した場合、当社の TADT は、主流の特徴抽出プログラムと比較して、比較的少ない計算コストで最先端の ASSR パフォーマンスを達成できることを示しています。
コードは公開されます。

要約(オリジナル)

Arbitrary-scale super-resolution (ASSR) aims to learn a single model for image super-resolution at arbitrary magnifying scales. Existing ASSR networks typically comprise an off-the-shelf scale-agnostic feature extractor and an arbitrary scale upsampler. These feature extractors often use fixed network architectures to address different ASSR inference tasks, each of which is characterized by an input image and an upsampling scale. However, this overlooks the difficulty variance of super-resolution on different inference scenarios, where simple images or small SR scales could be resolved with less computational effort than difficult images or large SR scales. To tackle this difficulty variability, in this paper, we propose a Task-Aware Dynamic Transformer (TADT) as an input-adaptive feature extractor for efficient image ASSR. Our TADT consists of a multi-scale feature extraction backbone built upon groups of Multi-Scale Transformer Blocks (MSTBs) and a Task-Aware Routing Controller (TARC). The TARC predicts the inference paths within feature extraction backbone, specifically selecting MSTBs based on the input images and SR scales. The prediction of inference path is guided by a new loss function to trade-off the SR accuracy and efficiency. Experiments demonstrate that, when working with three popular arbitrary-scale upsamplers, our TADT achieves state-of-the-art ASSR performance when compared with mainstream feature extractors, but with relatively fewer computational costs. The code will be publicly released.

arxiv情報

著者 Tianyi Xu,Yiji Zhou,Xiaotao Hu,Kai Zhang,Anran Zhang,Xingye Qiu,Jun Xu
発行日 2024-08-16 13:35:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク