Lightweight Multiscale Feature Fusion Super-Resolution Network Based on Two-branch Convolution and Transformer

要約

深層学習における単一画像超解像度 (SISR) アルゴリズムには現在 2 つの主要なモデルがあり、1 つは畳み込みニューラル ネットワークに基づいており、もう 1 つは Transformer に基づいています。
前者では、異なる畳み込みカーネル サイズの畳み込み層のスタッキングを使用してモデルを設計します。これにより、モデルが画像の局所的な特徴をより適切に抽出できるようになります。
後者では、セルフ アテンション メカニズムを使用してモデルを設計します。これにより、モデルはセルフ アテンション メカニズムを通じて画像ピクセル ポイント間の長距離依存関係を確立し、画像のグローバルな特徴をより適切に抽出できるようになります。
ただし、上記のどちらの方法にも問題があります。
これに基づいて、本論文は、双方向相補畳み込みと Transformer に基づく新しい軽量マルチスケール機能融合ネットワーク モデルを提案します。これは、2 分岐ネットワーク アーキテクチャを通じて Transformer と畳み込みニューラル ネットワークのそれぞれの機能を統合し、相互の機能を実現します。
グローバル情報とローカル情報の融合。
一方、ディープニューラルネットワークによって訓練された低ピクセル画像によって引き起こされる情報の部分的な損失を考慮して、本論文は、モデルの浅い段階から抽出された特徴マップとそれらの特徴マップを融合するための多段階の特徴補完のモジュール接続方法を設計します。
モデルの深い段階から特徴量画像を抽出することで、画像復元に有益な特徴画像の情報の損失を可能な限り抑え、より高品質な復元画像を容易に得ることができます。
実際の結果は、最終的に、同じ量のパラメータを持つ他の軽量モデルと比較した場合、この論文で提案したモデルが画像回復パフォーマンスにおいて最適であることを示しています。

要約(オリジナル)

The single image super-resolution(SISR) algorithms under deep learning currently have two main models, one based on convolutional neural networks and the other based on Transformer. The former uses the stacking of convolutional layers with different convolutional kernel sizes to design the model, which enables the model to better extract the local features of the image; the latter uses the self-attention mechanism to design the model, which allows the model to establish long-distance dependencies between image pixel points through the self-attention mechanism and then better extract the global features of the image. However, both of the above methods face their problems. Based on this, this paper proposes a new lightweight multi-scale feature fusion network model based on two-way complementary convolutional and Transformer, which integrates the respective features of Transformer and convolutional neural networks through a two-branch network architecture, to realize the mutual fusion of global and local information. Meanwhile, considering the partial loss of information caused by the low-pixel images trained by the deep neural network, this paper designs a modular connection method of multi-stage feature supplementation to fuse the feature maps extracted from the shallow stage of the model with those extracted from the deep stage of the model, to minimize the loss of the information in the feature images that is beneficial to the image restoration as much as possible, to facilitate the obtaining of a higher-quality restored image. The practical results finally show that the model proposed in this paper is optimal in image recovery performance when compared with other lightweight models with the same amount of parameters.

arxiv情報

著者 Li Ke,Liu Yukai
発行日 2024-09-10 15:31:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク