CS-Mixer: A Cross-Scale Vision MLP Model with Spatial-Channel Mixing

要約

Vision Transformers や Convolutional Neural Networks と比較して情報融合設計がシンプルであるにもかかわらず、Vision MLP アーキテクチャは、最近の研究で強力なパフォーマンスと高いデータ効率を実証しています。
ただし、CycleMLP や Vision Permutator などの既存の研究は、通常、同じサイズの空間領域で空間情報をモデル化し、スケール間の空間相互作用を考慮していません。
さらに、同社のトークン ミキサーは 1 軸または 2 軸の相関のみをモデル化し、計算上の要求による 3 軸の空間チャネル混合を回避します。
したがって、我々は、クロススケールのローカルおよびグローバル集約を通じて空間チャネル混合のための動的な低ランク変換を学習する階層型 Vision MLP である CS-Mixer を提案します。
提案された方法論は、大幅に多くの計算量を費やすことなく、一般的な画像認識ベンチマークで競合する結果を達成します。
当社の最大のモデルである CS-Mixer-L は、13.7 GFLOP と 94 M パラメータを備えた ImageNet-1k で 83.2% のトップ 1 精度に達します。

要約(オリジナル)

Despite their simpler information fusion designs compared with Vision Transformers and Convolutional Neural Networks, Vision MLP architectures have demonstrated strong performance and high data efficiency in recent research. However, existing works such as CycleMLP and Vision Permutator typically model spatial information in equal-size spatial regions and do not consider cross-scale spatial interactions. Further, their token mixers only model 1- or 2-axis correlations, avoiding 3-axis spatial-channel mixing due to its computational demands. We therefore propose CS-Mixer, a hierarchical Vision MLP that learns dynamic low-rank transformations for spatial-channel mixing through cross-scale local and global aggregation. The proposed methodology achieves competitive results on popular image recognition benchmarks without incurring substantially more compute. Our largest model, CS-Mixer-L, reaches 83.2% top-1 accuracy on ImageNet-1k with 13.7 GFLOPs and 94 M parameters.

arxiv情報

著者 Jonathan Cui,David A. Araujo,Suman Saha,Md. Faisal Kabir
発行日 2023-08-25 13:18:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク