From Colors to Classes: Emergence of Concepts in Vision Transformers

要約

ビジョントランス(VITS)は、強力な表現能力により、さまざまなコンピュータービジョンタスクでますます利用されています。
ただし、VITSがレイヤーごとに情報を処理する方法は依然として考えられていません。
多くの研究により、畳み込みニューラルネットワーク(CNNS)がレイヤー全体で複雑さを高める特徴を抽出することが示されています。これは、ドメインの適応や転送学習などのタスクに重要です。
CNNと同じ帰納的バイアスを欠いているvitsは、注意メカニズムのために最初の層からグローバルな依存関係を潜在的に学ぶことができます。
コンピュータービジョンにおけるVITの重要性が高まっていることを考えると、vitsの層ごとの理解を改善する必要があります。
この作業では、ニューロン標識を使用して最先端のVITでエンコードされた概念の新しい層ごとの分析を提示します。
私たちの調査結果は、VITSがネットワーク全体で複雑さを増して概念をエンコードすることを明らかにしています。
初期層は主に色やテクスチャなどの基本的な機能をエンコードしますが、後のレイヤーはオブジェクトや動物などのより具体的なクラスを表します。
エンコードされた概念の複雑さが増すと、各レイヤーで表される概念の数も上昇し、より多様で特定の機能セットを反映しています。
さらに、異なる事前トレーニング戦略は、エンコードされた概念の量とカテゴリに影響を与え、特定のダウンストリームタスクに微調整され、一般にエンコードされた概念の数を減らし、概念をより関連性の高いカテゴリにシフトします。

要約(オリジナル)

Vision Transformers (ViTs) are increasingly utilized in various computer vision tasks due to their powerful representation capabilities. However, it remains understudied how ViTs process information layer by layer. Numerous studies have shown that convolutional neural networks (CNNs) extract features of increasing complexity throughout their layers, which is crucial for tasks like domain adaptation and transfer learning. ViTs, lacking the same inductive biases as CNNs, can potentially learn global dependencies from the first layers due to their attention mechanisms. Given the increasing importance of ViTs in computer vision, there is a need to improve the layer-wise understanding of ViTs. In this work, we present a novel, layer-wise analysis of concepts encoded in state-of-the-art ViTs using neuron labeling. Our findings reveal that ViTs encode concepts with increasing complexity throughout the network. Early layers primarily encode basic features such as colors and textures, while later layers represent more specific classes, including objects and animals. As the complexity of encoded concepts increases, the number of concepts represented in each layer also rises, reflecting a more diverse and specific set of features. Additionally, different pretraining strategies influence the quantity and category of encoded concepts, with finetuning to specific downstream tasks generally reducing the number of encoded concepts and shifting the concepts to more relevant categories.

arxiv情報

著者 Teresa Dorszewski,Lenka Tětková,Robert Jenssen,Lars Kai Hansen,Kristoffer Knutsen Wickstrøm
発行日 2025-03-31 13:28:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク