要約
トランスフォーマーベースの手法は、超解像度の視覚タスクにおいて従来の畳み込みニューラル ネットワークを上回る優れたパフォーマンスを実証しました。
ただし、既存の研究では通常、計算コストを節約するために、セルフアテンションの計算を重複しないウィンドウに制限しています。
これは、Transformer ベースのネットワークが限られた空間範囲からの入力情報のみを使用できることを意味します。
したがって、この論文では、特徴の潜在的な情報をより適切に活用するために、新しいハイブリッド多軸集約ネットワーク (HMA) が提案されています。
HMA は、Residual Hybrid Transformer Blocks(RHTB) と Grid Attendance Blocks(GAB) を積み重ねることによって構築されます。
一方では、RHTB はチャネルの注意と自己の注意を組み合わせて、非局所特徴の融合を強化し、より魅力的な視覚的結果を生成します。
逆に、GAB はクロスドメイン情報インタラクションで使用され、同様の特徴を共同でモデル化し、より大きな知覚フィールドを取得します。
トレーニング段階の超解像タスクでは、モデル表現機能をさらに強化し、多くの実験を通じて提案されたモデルの有効性を検証するために、新しい事前トレーニング方法が設計されています。
実験結果は、HMA がベンチマーク データセットで最先端の手法よりも優れていることを示しています。
コードとモデルは https://github.com/korouuuuu/HMA で提供されています。
要約(オリジナル)
Transformer-based methods have demonstrated excellent performance on super-resolution visual tasks, surpassing conventional convolutional neural networks. However, existing work typically restricts self-attention computation to non-overlapping windows to save computational costs. This means that Transformer-based networks can only use input information from a limited spatial range. Therefore, a novel Hybrid Multi-Axis Aggregation network (HMA) is proposed in this paper to exploit feature potential information better. HMA is constructed by stacking Residual Hybrid Transformer Blocks(RHTB) and Grid Attention Blocks(GAB). On the one side, RHTB combines channel attention and self-attention to enhance non-local feature fusion and produce more attractive visual results. Conversely, GAB is used in cross-domain information interaction to jointly model similar features and obtain a larger perceptual field. For the super-resolution task in the training phase, a novel pre-training method is designed to enhance the model representation capabilities further and validate the proposed model’s effectiveness through many experiments. The experimental results show that HMA outperforms the state-of-the-art methods on the benchmark dataset. We provide code and models at https://github.com/korouuuuu/HMA.
arxiv情報
著者 | Shu-Chuan Chu,Zhi-Chao Dou,Jeng-Shyang Pan,Shaowei Weng,Junbao Li |
発行日 | 2024-05-08 12:14:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google