HyenaPixel: Global Image Context with Convolutions

要約

視覚タスクでは、有効受容野 (ERF) が大きいほどパフォーマンスが向上します。
アテンションはグローバル コンテキストをネイティブにサポートしますが、畳み込みには、大規模なコンテキストに対して複数の積み重ねられたレイヤーと階層構造が必要です。
この研究では、畳み込みベースの注意置換である Hyena を、因果シーケンスから非因果の 2 次元画像空間に拡張します。
ハイエナ畳み込みカーネルを特徴マップ サイズを超えて最大 191$\times$191 までスケールして、ピクセル数の二次二次複雑さを維持しながら ERF を最大化します。
二次元ハイエナ、ハイエナピクセル、双方向ハイエナを MetaFormer フレームワークに統合します。
画像分類に関しては、HyenaPixel と双方向 Hyena は、他の大規模カーネル ネットワークを上回り、それぞれ 83.0% と 83.5% という競争力のある ImageNet-1k トップ 1 精度を達成します。
ハイエナピクセルと注意を組み合わせると、精度がさらに 83.6% に向上します。
私たちは注意が成功したのは後の段階で空間的偏りがないことに起因すると考えており、双方向性ハイエナでこの発見を裏付けています。

要約(オリジナル)

In vision tasks, a larger effective receptive field (ERF) is associated with better performance. While attention natively supports global context, convolution requires multiple stacked layers and a hierarchical structure for large context. In this work, we extend Hyena, a convolution-based attention replacement, from causal sequences to the non-causal two-dimensional image space. We scale the Hyena convolution kernels beyond the feature map size up to 191$\times$191 to maximize the ERF while maintaining sub-quadratic complexity in the number of pixels. We integrate our two-dimensional Hyena, HyenaPixel, and bidirectional Hyena into the MetaFormer framework. For image categorization, HyenaPixel and bidirectional Hyena achieve a competitive ImageNet-1k top-1 accuracy of 83.0% and 83.5%, respectively, while outperforming other large-kernel networks. Combining HyenaPixel with attention further increases accuracy to 83.6%. We attribute the success of attention to the lack of spatial bias in later stages and support this finding with bidirectional Hyena.

arxiv情報

著者 Julian Spravil,Sebastian Houben,Sven Behnke
発行日 2024-02-29 16:10:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク