Dynamic Spectrum Mixer for Visual Recognition

要約

最近、MLP ベースのビジョン バックボーンは、いくつかの視覚認識タスクで有望なパフォーマンスを達成しました。
ただし、既存の MLP ベースの方法は、静的な重みを使用してトークンを直接集約するため、さまざまな画像への適応性はそのままになっています。
さらに、最近の研究では、MLP-Transformer は長距離依存関係の作成には優れていますが、主にローカル情報を送信する高周波の捕捉には効果的ではないため、セマンティック セグメンテーションなどの下流の高密度予測タスクには適用できないことが実証されています。
これらの課題に対処するために、私たちはダイナミック スペクトラム ミキサー (DSM) と呼ばれる、コンテンツ適応型でありながら計算効率の高い構造を提案します。
DSM は、対数線形複雑さで長期の空間依存関係を学習できる離散コサイン変換を使用して、周波数領域でのトークンの相互作用を表します。
さらに、動的スペクトル重み生成層がスペクトル帯域セレクターとして提案されており、有益な周波数帯域を強調し、他の周波数帯域を減少させることができます。
この目的を達成するために、この技術では、高周波情報と低周波情報の両方を含む視覚入力から詳細な特徴を効率的に学習できます。
広範な実験により、DSM がさまざまな視覚認識タスクにとって強力で適応性のあるバックボーンであることが示されています。
特に、DSM は、ImageNet で 83.8 \% トップ 1 の精度、ADE20K で 49.9 \% mIoU など、画像分類、オブジェクト検出、セマンティック セグメンテーション タスクにおいて、以前のトランスフォーマー ベースおよび MLP ベースのモデルを上回っています。

要約(オリジナル)

Recently, MLP-based vision backbones have achieved promising performance in several visual recognition tasks. However, the existing MLP-based methods directly aggregate tokens with static weights, leaving the adaptability to different images untouched. Moreover, Recent research demonstrates that MLP-Transformer is great at creating long-range dependencies but ineffective at catching high frequencies that primarily transmit local information, which prevents it from applying to the downstream dense prediction tasks, such as semantic segmentation. To address these challenges, we propose a content-adaptive yet computationally efficient structure, dubbed Dynamic Spectrum Mixer (DSM). The DSM represents token interactions in the frequency domain by employing the Discrete Cosine Transform, which can learn long-term spatial dependencies with log-linear complexity. Furthermore, a dynamic spectrum weight generation layer is proposed as the spectrum bands selector, which could emphasize the informative frequency bands while diminishing others. To this end, the technique can efficiently learn detailed features from visual input that contains both high- and low-frequency information. Extensive experiments show that DSM is a powerful and adaptable backbone for a range of visual recognition tasks. Particularly, DSM outperforms previous transformer-based and MLP-based models, on image classification, object detection, and semantic segmentation tasks, such as 83.8 \% top-1 accuracy on ImageNet, and 49.9 \% mIoU on ADE20K.

arxiv情報

著者 Zhiqiang Hu,Tao Yu
発行日 2023-09-15 08:39:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク