Enhancing Performance of Vision Transformers on Small Datasets through Local Inductive Bias Incorporation

要約

ビジョン トランスフォーマー (ViT) は、大規模なデータセットでは顕著なパフォーマンスを達成しますが、小規模なデータセットで最初からトレーニングすると畳み込みニューラル ネットワーク (CNN) よりもパフォーマンスが低下する傾向があります。これは、おそらくアーキテクチャに局所的な誘導バイアスが欠如しているためです。
したがって、最近の研究では、アーキテクチャに局所性を追加し、それが ViT が小規模なデータセット領域で CNN に匹敵するパフォーマンスを達成するのに役立つことが実証されました。
ただし、既存の方法はアーキテクチャに固有であるか、計算コストとメモリ コストが高くなります。
そこで、パッチレベルのローカル情報を抽出し、それを ViT のセルフアテンション ブロックで使用される埋め込みに組み込む、Local InFormation Enhancer (LIFE) と呼ばれるモジュールを提案します。
私たちが提案するモジュールは、メモリと計算効率が高く、分類トークンや蒸留トークンなどの補助トークンを処理するのに十分な柔軟性を備えています。
経験的な結果は、LIFE モジュールの追加により、小さな画像分類データセットに対する ViT のパフォーマンスが向上することを示しています。
さらに、その効果がオブジェクト検出やセマンティック セグメンテーションなどの下流タスクにどのように拡張できるかを示します。
さらに、高密度予測タスク用に特別に設計された新しい視覚化手法である高密度アテンション ロールアウトを導入し、すべてのトークンのアテンション マップを利用したクラス固有のアテンション マップの生成を可能にします。

要約(オリジナル)

Vision transformers (ViTs) achieve remarkable performance on large datasets, but tend to perform worse than convolutional neural networks (CNNs) when trained from scratch on smaller datasets, possibly due to a lack of local inductive bias in the architecture. Recent studies have therefore added locality to the architecture and demonstrated that it can help ViTs achieve performance comparable to CNNs in the small-size dataset regime. Existing methods, however, are architecture-specific or have higher computational and memory costs. Thus, we propose a module called Local InFormation Enhancer (LIFE) that extracts patch-level local information and incorporates it into the embeddings used in the self-attention block of ViTs. Our proposed module is memory and computation efficient, as well as flexible enough to process auxiliary tokens such as the classification and distillation tokens. Empirical results show that the addition of the LIFE module improves the performance of ViTs on small image classification datasets. We further demonstrate how the effect can be extended to downstream tasks, such as object detection and semantic segmentation. In addition, we introduce a new visualization method, Dense Attention Roll-Out, specifically designed for dense prediction tasks, allowing the generation of class-specific attention maps utilizing the attention maps of all tokens.

arxiv情報

著者 Ibrahim Batuhan Akkaya,Senthilkumar S. Kathiresan,Elahe Arani,Bahram Zonooz
発行日 2023-05-15 11:23:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク