Caterpillar: A Pure-MLP Architecture with Shifted-Pillars-Concatenation

要約

コンピューター ビジョンのモデリングは MLP に進化しました。
ビジョン MLP には当然ながらローカル モデリング機能が欠けており、最も単純な処理は畳み込み層と組み合わせられます。
スライディング ウィンドウ スキームで有名な畳み込みも、この冗長性と並列計算の低さというスキームに悩まされています。
この論文では、ウィンドウ処理スキームを省略し、局所性を利用するためのより精巧で並列化可能な方法を導入することを目指します。
この目的を達成するために、我々は新しい MLP モジュール、つまり Shifted-Pillars-Concatenation (SPC) を提案します。これは 2 段階のプロセスで構成されます。 (1) Pillars-Shift。入力画像を 4 方向に沿ってシフトすることによって 4 つの隣接するマップを生成します。
(2) ピラー連結。マップ上に線形変換と連結を適用してローカル フィーチャを集約します。
SPC モジュールは、優れたローカル モデリング能力とパフォーマンスの向上を提供し、畳み込み層の有望な代替手段となります。
次に、sMLPNet のハイブリッド モデルの畳み込み層を SPC モジュールに置き換えることにより、Caterpillar と呼ばれる純粋な MLP アーキテクチャを構築します。
広範な実験により、Caterpillar は小規模分類ベンチマークと ImageNet-1k 分類ベンチマークの両方で優れたパフォーマンスを示し、優れたスケーラビリティと転送能力も備えていることがわかりました。
コードは https://github.com/sunjin19126/Caterpillar で入手できます。

要約(オリジナル)

Modeling in Computer Vision has evolved to MLPs. Vision MLPs naturally lack local modeling capability, to which the simplest treatment is combined with convolutional layers. Convolution, famous for its sliding window scheme, also suffers from this scheme of redundancy and lower parallel computation. In this paper, we seek to dispense with the windowing scheme and introduce a more elaborate and parallelizable method to exploit locality. To this end, we propose a new MLP module, namely Shifted-Pillars-Concatenation (SPC), that consists of two steps of processes: (1) Pillars-Shift, which generates four neighboring maps by shifting the input image along four directions, and (2) Pillars-Concatenation, which applies linear transformations and concatenation on the maps to aggregate local features. SPC module offers superior local modeling power and performance gains, making it a promising alternative to the convolutional layer. Then, we build a pure-MLP architecture called Caterpillar by replacing the convolutional layer with the SPC module in a hybrid model of sMLPNet. Extensive experiments show Caterpillar’s excellent performance on both small-scale and ImageNet-1k classification benchmarks, with remarkable scalability and transfer capability possessed as well. The code is available at https://github.com/sunjin19126/Caterpillar.

arxiv情報

著者 Jin Sun,Xiaoshuang Shi,Zhiyuan Wang,Kaidi Xu,Heng Tao Shen,Xiaofeng Zhu
発行日 2024-09-10 16:42:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク