Vim-F: Visual State Space Model Benefiting from Learning in the Frequency Domain

要約

近年、Mamba 深層学習モデルとして知られる、効率的なハードウェアを意識した設計を備えた状態空間モデル (SSM) は、言語理解などの長いシーケンスのモデル化において大幅な進歩を遂げました。
したがって、SSM に基づいて効率的で汎用的なビジュアル バックボーンを構築することは、有望な方向性です。
従来の畳み込みニューラル ネットワーク (CNN) やビジョン トランスフォーマー (ViT) と比較すると、ビジョン マンバ (ViM) メソッドのパフォーマンスはまだ完全に競合するものではありません。
SSM が画像データを処理できるようにするために、ViM は通常、2D 画像を 1D シーケンスに平坦化し、必然的に一部の 2D ローカル依存関係を無視するため、グローバルな観点から空間関係を解釈するモデルの能力が弱まります。
高速フーリエ変換 (FFT) を使用して特徴マップのスペクトルを取得し、それを元の特徴マップに追加することで、ViM が周波数領域と空間領域の両方で統一された視覚表現をモデル化できるようになります。
周波数領域情報の導入により、ViM はスキャン中にグローバルな受容野を持つことが可能になります。
我々は、純粋な Mamba エンコーダを採用し、周波数領域と空間領域の両方でスキャンする Vim-F と呼ばれる新しいモデルを提案します。
さらに、我々は ViM での位置埋め込みの必要性に疑問を持ち、Vim-F ではそれを適宜削除します。これは、ViM の効率的な長シーケンス モデリング機能を最大限に活用するのに役立ちます。
最後に、Vim-F 用のパッチ埋め込みを再設計し、畳み込みステムを活用してより局所的な相関を捕捉し、Vim-F のパフォーマンスをさらに向上させます。
コードは \url{https://github.com/yws-wxs/Vim-F} から入手できます。

要約(オリジナル)

In recent years, State Space Models (SSMs) with efficient hardware-aware designs, known as the Mamba deep learning models, have made significant progress in modeling long sequences such as language understanding. Therefore, building efficient and general-purpose visual backbones based on SSMs is a promising direction. Compared to traditional convolutional neural networks (CNNs) and Vision Transformers (ViTs), the performance of Vision Mamba (ViM) methods is not yet fully competitive. To enable SSMs to process image data, ViMs typically flatten 2D images into 1D sequences, inevitably ignoring some 2D local dependencies, thereby weakening the model’s ability to interpret spatial relationships from a global perspective. We use Fast Fourier Transform (FFT) to obtain the spectrum of the feature map and add it to the original feature map, enabling ViM to model a unified visual representation in both frequency and spatial domains. The introduction of frequency domain information enables ViM to have a global receptive field during scanning. We propose a novel model called Vim-F, which employs pure Mamba encoders and scans in both the frequency and spatial domains. Moreover, we question the necessity of position embedding in ViM and remove it accordingly in Vim-F, which helps to fully utilize the efficient long-sequence modeling capability of ViM. Finally, we redesign a patch embedding for Vim-F, leveraging a convolutional stem to capture more local correlations, further improving the performance of Vim-F. Code is available at: \url{https://github.com/yws-wxs/Vim-F}.

arxiv情報

著者 Juntao Zhang,Shaogeng Liu,Kun Bian,You Zhou,Pei Zhang,Wenbo An,Jun Zhou,Kun Shao
発行日 2025-01-07 17:00:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク