LMLT: Low-to-high Multi-Level Vision Transformer for Image Super-Resolution

要約

最近の Vision Transformer (ViT) ベースの画像超解像度手法は、優れたパフォーマンスを実証しています。
ただし、非常に複雑なため、推論時間とメモリ使用量が多くなります。
さらに、ウィンドウ セルフ アテンション (WSA) を使用する ViT モデルは、ウィンドウの外側の領域を処理する際に課題に直面しています。
これらの問題に対処するために、各ヘッドのさまざまな機能サイズに注意を払う、Low-to-High Multi-Level Transformer (LMLT) を提案します。
LMLT は、チャネル次元に沿って画像特徴を分割し、下部の頭部の空間サイズを徐々に縮小し、各頭部に自己注意を適用します。
このアプローチでは、ローカル情報とグローバル情報の両方を効果的に取得します。
LMLT は、下位のヘッドからの結果を上位のヘッドに統合することにより、自己注意におけるウィンドウ境界の問題を克服します。
広範な実験により、私たちのモデルは、最先端の ViT ベースの画像超解像手法のパフォーマンスを維持または上回る一方で、推論時間と GPU メモリ使用量を大幅に削減できることが示されています。
私たちのコードは https://github.com/jwgdmkj/LMLT で入手できます。

要約(オリジナル)

Recent Vision Transformer (ViT)-based methods for Image Super-Resolution have demonstrated impressive performance. However, they suffer from significant complexity, resulting in high inference times and memory usage. Additionally, ViT models using Window Self-Attention (WSA) face challenges in processing regions outside their windows. To address these issues, we propose the Low-to-high Multi-Level Transformer (LMLT), which employs attention with varying feature sizes for each head. LMLT divides image features along the channel dimension, gradually reduces spatial size for lower heads, and applies self-attention to each head. This approach effectively captures both local and global information. By integrating the results from lower heads into higher heads, LMLT overcomes the window boundary issues in self-attention. Extensive experiments show that our model significantly reduces inference time and GPU memory usage while maintaining or even surpassing the performance of state-of-the-art ViT-based Image Super-Resolution methods. Our codes are availiable at https://github.com/jwgdmkj/LMLT.

arxiv情報

著者 Jeongsoo Kim,Jongho Nang,Junsuk Choe
発行日 2024-09-05 13:29:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク