RecConv: Efficient Recursive Convolutions for Multi-Frequency Representations

要約

ビジョン トランスフォーマー (ViT) の最近の進歩により、グローバル モデリング機能の利点が実証され、有効受容野 (ERF) を拡大するための大規模カーネル コンボリューションの広範な統合が促進されています。
ただし、カーネル サイズに対するパラメーター数と計算量 (FLOP) の 2 次スケーリングは、効率と最適化に重大な課題をもたらします。
この論文では、小規模カーネル畳み込みを使用して複数周波数表現を効率的に構築する再帰的分解戦略である RecConv を紹介します。
RecConv は、ERF に関係なく一定の FLOP を維持しながら、パラメーターの増加と分解レベルの間に線形関係を確立し、ベース カーネル $k$ および $\ell$ レベルの分解の有効カーネル サイズ $k\times 2^\ell$ を決定します。
拡大。
具体的には、標準畳み込みと深さ方向の畳み込みの指数関数的な増加 ($4^\ell$) と比較して、RecConv はわずか $\ell+2$ 倍のパラメーター拡張と $5/3$ 倍の最大 FLOP 増加を実現します。
RecNeXt-M3 は、同様の FLOP で RepViT-M1.1 を COCO 上で 1.9 $AP^{box}$ 上回ります。
このイノベーションは、さまざまなモダリティにわたって効率的でコンパクトなネットワークを設計するための有望な手段を提供します。
コードとモデルは \url{https://github.com/suous/RecNeXt} にあります。

要約(オリジナル)

Recent advances in vision transformers (ViTs) have demonstrated the advantage of global modeling capabilities, prompting widespread integration of large-kernel convolutions for enlarging the effective receptive field (ERF). However, the quadratic scaling of parameter count and computational complexity (FLOPs) with respect to kernel size poses significant efficiency and optimization challenges. This paper introduces RecConv, a recursive decomposition strategy that efficiently constructs multi-frequency representations using small-kernel convolutions. RecConv establishes a linear relationship between parameter growth and decomposing levels which determines the effective kernel size $k\times 2^\ell$ for a base kernel $k$ and $\ell$ levels of decomposition, while maintaining constant FLOPs regardless of the ERF expansion. Specifically, RecConv achieves a parameter expansion of only $\ell+2$ times and a maximum FLOPs increase of $5/3$ times, compared to the exponential growth ($4^\ell$) of standard and depthwise convolutions. RecNeXt-M3 outperforms RepViT-M1.1 by 1.9 $AP^{box}$ on COCO with similar FLOPs. This innovation provides a promising avenue towards designing efficient and compact networks across various modalities. Codes and models can be found at \url{https://github.com/suous/RecNeXt}.

arxiv情報

著者 Mingshu Zhao,Yi Luo,Yong Ouyang
発行日 2024-12-27 13:13:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク