CAMixerSR: Only Details Need More ‘Attention’


大規模画像 (2K ~ 8K) 超解像度 (SR) に対する急速に高まる需要を満たすために、一般的な手法は 2 つの独立した方針に従います。1) コンテンツを意識したルーティングによって既存のネットワークを高速化する、2) コンテンツを意識したルーティングによって、より優れた超解像度ネットワークを設計する
直接性にもかかわらず、避けられない欠陥 (柔軟性のないルートや非差別的な処理など) に遭遇し、品質と複雑さのトレードオフのさらなる改善が制限されます。
欠点を解消するために、コンテンツ認識ミキサー (CAMixer) を提案することでこれらのスキームを統合します。これは、単純なコンテキストに畳み込みを割り当て、まばらなテクスチャに追加の変形可能なウィンドウ アテンションを割り当てます。
具体的には、CAMixer は学習可能な予測子を使用して、ウィンドウ ワーピング用のオフセット、ウィンドウを分類するためのマスク、畳み込みに動的プロパティを与えるための畳み込みアテンションを含む複数のブートストラップを生成します。これにより、より有用なテクスチャが自己適応的に含まれるようにアテンションを調整し、


To satisfy the rapidly increasing demands on the large image (2K-8K) super-resolution (SR), prevailing methods follow two independent tracks: 1) accelerate existing networks by content-aware routing, and 2) design better super-resolution networks via token mixer refining. Despite directness, they encounter unavoidable defects (e.g., inflexible route or non-discriminative processing) limiting further improvements of quality-complexity trade-off. To erase the drawbacks, we integrate these schemes by proposing a content-aware mixer (CAMixer), which assigns convolution for simple contexts and additional deformable window-attention for sparse textures. Specifically, the CAMixer uses a learnable predictor to generate multiple bootstraps, including offsets for windows warping, a mask for classifying windows, and convolutional attentions for endowing convolution with the dynamic property, which modulates attention to include more useful textures self-adaptively and improves the representation capability of convolution. We further introduce a global classification loss to improve the accuracy of predictors. By simply stacking CAMixers, we obtain CAMixerSR which achieves superior performance on large-image SR, lightweight SR, and omnidirectional-image SR.


著者 Yan Wang,Shijie Zhao,Yi Liu,Junlin Li,Li Zhang
発行日 2024-02-29 15:52:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, eess.IV パーマリンク