FFT-based Dynamic Token Mixer for Vision

要約

マルチヘッドセルフアテンション (MHSA) 搭載モデルは、コンピュータ ビジョンにおいて顕著なパフォーマンスを達成しました。
計算の複雑さは入力特徴マップのピクセルの二次数に比例するため、特に高解像度の画像を扱う場合、処理が遅くなります。
この問題を回避するために、MHSA の代替として新しいタイプのトークン ミキサーが提案されています。FFT ベースのトークン ミキサーには、MHSA と同様のグローバル操作が含まれますが、計算の複雑さは低くなります。
ただし、FFT ベースのトークン ミキサーは、その魅力的な特性にもかかわらず、急速に進化する MetaFormer アーキテクチャとの互換性の観点から慎重に検討されていません。
ここでは、上記のギャップを埋めるために、Dynamic Filter と呼ばれる新しいトークン ミキサーと新しい画像認識モデル DFFormer および CDFFormer を提案します。
画像分類と下流タスク、分析、および視覚化の結果は、私たちのモデルが役立つことを示しています。
特に、高解像度の画像認識を処理する際のスループットとメモリ効率は顕著です。
私たちの結果は、動的フィルターが真剣に検討されるべきトークンミキサー オプションの 1 つであることを示しています。
コードは https://github.com/okojoalg/dfformer で入手できます。

要約(オリジナル)

Multi-head-self-attention (MHSA)-equipped models have achieved notable performance in computer vision. Their computational complexity is proportional to quadratic numbers of pixels in input feature maps, resulting in slow processing, especially when dealing with high-resolution images. New types of token-mixer are proposed as an alternative to MHSA to circumvent this problem: an FFT-based token-mixer involves global operations similar to MHSA but with lower computational complexity. However, despite its attractive properties, the FFT-based token-mixer has not been carefully examined in terms of its compatibility with the rapidly evolving MetaFormer architecture. Here, we propose a novel token-mixer called Dynamic Filter and novel image recognition models, DFFormer and CDFFormer, to close the gaps above. The results of image classification and downstream tasks, analysis, and visualization show that our models are helpful. Notably, their throughput and memory efficiency when dealing with high-resolution image recognition is remarkable. Our results indicate that Dynamic Filter is one of the token-mixer options that should be seriously considered. The code is available at https://github.com/okojoalg/dfformer

arxiv情報

著者 Yuki Tatsunami,Masato Taki
発行日 2023-12-17 16:53:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク