Adaptive Split-Fusion Transformer

要約

視覚的なコンテンツを理解するためのニューラル ネットワークは、最近、畳み込みネットワーク (CNN) からトランスフォーマーへと進化しました。
以前の (CNN) は、小さなウィンドウのカーネルに依存して地域の手がかりを捕捉し、確かなローカルの表現力を示しています。
反対に、後者 (トランスフォーマー) は、全体的な学習のために地域間に長距離のグローバルな接続を確立します。
この補完的な性質に触発されて、それぞれの技術を最大限に活用するハイブリッド モデルの設計への関心が高まっています。
現在のハイブリッドは、ローカル/グローバル モデリングの重要性を考慮することなく、単に線形射影の単純な近似として畳み込みを置き換えるか、注意を払って畳み込みブランチを並置するだけです。
これに取り組むために、適応重みを使用して畳み込みブランチとアテンションブランチを異なる方法で処理する、Adaptive Split-Fusion Transformer (ASF-former) という名前の新しいハイブリッドを提案します。
具体的には、ASF フォーマ エンコーダは、デュアル パス入力に適合するように機能チャネルを半分に均等に分割します。
次に、デュアルパスの出力が、視覚的な手がかりから計算された重み付けスカラーと融合されます。
また、効率を考慮して畳み込みパスをコンパクトに設計します。
ImageNet-1K、CIFAR-10、CIFAR-100 などの標準ベンチマークでの広範な実験により、当社の ASF フォーマーが CNN、同等のトランスフォーマー、およびハイブリッド パイロットよりも精度の点で優れていることが示されています (ImageNet-1K で 83.9%)。
同様の条件下 (12.9G MAC/56.7M パラメータ、大規模な事前トレーニングなし)。
コードは https://github.com/szx503045266/ASF-former から入手できます。

要約(オリジナル)

Neural networks for visual content understanding have recently evolved from convolutional ones (CNNs) to transformers. The prior (CNN) relies on small-windowed kernels to capture the regional clues, demonstrating solid local expressiveness. On the contrary, the latter (transformer) establishes long-range global connections between localities for holistic learning. Inspired by this complementary nature, there is a growing interest in designing hybrid models to best utilize each technique. Current hybrids merely replace convolutions as simple approximations of linear projection or juxtapose a convolution branch with attention, without concerning the importance of local/global modeling. To tackle this, we propose a new hybrid named Adaptive Split-Fusion Transformer (ASF-former) to treat convolutional and attention branches differently with adaptive weights. Specifically, an ASF-former encoder equally splits feature channels into half to fit dual-path inputs. Then, the outputs of dual-path are fused with weighting scalars calculated from visual cues. We also design the convolutional path compactly for efficiency concerns. Extensive experiments on standard benchmarks, such as ImageNet-1K, CIFAR-10, and CIFAR-100, show that our ASF-former outperforms its CNN, transformer counterparts, and hybrid pilots in terms of accuracy (83.9% on ImageNet-1K), under similar conditions (12.9G MACs/56.7M Params, without large-scale pre-training). The code is available at: https://github.com/szx503045266/ASF-former.

arxiv情報

著者 Zixuan Su,Hao Zhang,Jingjing Chen,Lei Pang,Chong-Wah Ngo,Yu-Gang Jiang
発行日 2023-08-16 17:09:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク