Studying inductive biases in image classification task

要約

最近、自己注意 (SA) 構造がコンピューター ビジョンの分野で一般的になってきました。
それらは局所的に独立したフィルターを持ち、以前は一般的だった畳み込みニューラル ネットワーク (CNN) と矛盾する大きなカーネルを使用できます。
CNN の成功は、局所性と空間的不変性のハードコーディングされた誘導バイアスに起因していました。
ただし、最近の研究では、CNN の誘導バイアスが制限的すぎることが示されています。
一方、深さ方向 (DW) 畳み込みと同様の相対位置エンコーディングは、ローカル SA ネットワークに必要です。これは、SA 構造が完全に空間的に異なるわけではないことを示しています。
したがって、誘導バイアスのどの部分がローカルSA構造の成功に寄与するかを判断したいと思います。
そのために、アテンション マップを複数のトレーニング可能なベース カーネルに分解し、コンテキスト アウェア (CA) パラメーターを使用してそれらを蓄積する、コンテキスト アウェア分解アテンション (CADA) を導入しました。
このようにして、CNN と SA ネットワーク間のリンクを特定できました。
ImageNet 分類タスクに適用された ResNet50 を使用してアブレーション研究を実施しました。
DW 畳み込みは、CNN と比較して計算コストを増加させることなく大きな局所性を持つことができますが、精度はより大きなカーネルで飽和します。
CADA は、この局所性の特徴に従います。
コンテキスト認識が重要な特性であることを示しました。
ただし、CA パラメータを構築するために大きなローカル情報は必要ありませんでした。
空間不変性がない場合はトレーニングが難しくなりますが、空間不変性を緩和すると、厳密な空間不変性よりも精度が向上します。
また、相対位置エンコーディングによる追加の強力な空間的不変性が望ましいものでした。
これらの実験をダウンサンプリング用のフィルターに拡張し、局所性バイアスはダウンサンプリングにとってより重要であるが、緩和された空間不変性を使用して強い局所性バイアスを除去できることを示しました。

要約(オリジナル)

Recently, self-attention (SA) structures became popular in computer vision fields. They have locally independent filters and can use large kernels, which contradicts the previously popular convolutional neural networks (CNNs). CNNs success was attributed to the hard-coded inductive biases of locality and spatial invariance. However, recent studies have shown that inductive biases in CNNs are too restrictive. On the other hand, the relative position encodings, similar to depthwise (DW) convolution, are necessary for the local SA networks, which indicates that the SA structures are not entirely spatially variant. Hence, we would like to determine which part of inductive biases contributes to the success of the local SA structures. To do so, we introduced context-aware decomposed attention (CADA), which decomposes attention maps into multiple trainable base kernels and accumulates them using context-aware (CA) parameters. This way, we could identify the link between the CNNs and SA networks. We conducted ablation studies using the ResNet50 applied to the ImageNet classification task. DW convolution could have a large locality without increasing computational costs compared to CNNs, but the accuracy saturates with larger kernels. CADA follows this characteristic of locality. We showed that context awareness was the crucial property; however, large local information was not necessary to construct CA parameters. Even though no spatial invariance makes training difficult, more relaxed spatial invariance gave better accuracy than strict spatial invariance. Also, additional strong spatial invariance through relative position encoding was preferable. We extended these experiments to filters for downsampling and showed that locality bias is more critical for downsampling but can remove the strong locality bias using relaxed spatial invariance.

arxiv情報

著者 Nana Arizumi
発行日 2022-10-31 08:43:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク