Unified CNNs and transformers underlying learning mechanism reveals multi-head attention modus vivendi

要約

畳み込みニューラルネットワーク(CNNS)は、レイヤーに沿って進行する入力画像の短距離相関を評価しますが、視覚変圧器(VIT)アーキテクチャは、完全に接続されたレイヤーで構成される反復トランスエンコーダーを使用して、長距離相関を評価します。
どちらも複雑な分類タスクを解決するように設計されていますが、異なる視点からです。
この研究は、CNNSとVITアーキテクチャが統一された基礎となる学習メカニズムに由来することを示しています。これは、Feedforward(FF)およびマルチヘッド注意(MHA)サブブロックの各ノードの単一ノードパフォーマンス(SNP)を定量的に測定します。
各ノードは、可能な出力ラベルの小さなクラスターを識別し、これらのクラスターの外側のラベルとして表現される追加ノイズがあります。
これらの機能は、変圧器エンコーダーに沿って徐々に研ぎ澄まされており、信号対雑音比を強化しています。
この統一された根本的な学習メカニズムは、2つの主要な発見につながります。
まず、精度に影響を与えることなく、効率的な適用された結節斜角接続(ANDC)剪定技術を可能にします。
第二に、SNPに基づいて、MHAヘッド間で自発的な対称性破壊が発生し、各ヘッドがSNP間の協力を通じてラベルのサブセットに注意を集中させるようにします。
その結果、各ヘッドは、定量的なMHAモデスビブンディメカニズムを表す指定されたラベルを認識する専門家になります。
この統計的メカニックは、視点に触発された視点により、各ノードの顕微鏡パフォーマンスからネットワーク全体の巨視的な動作を明らかにすることができます。
これらの結果は、CIFAR-100およびFlowers-102データセットで訓練されたコンパクトな畳み込みトランスアーキテクチャに基づいており、自然言語処理などの他のアーキテクチャやアプリケーションへの拡張を求めています。

要約(オリジナル)

Convolutional neural networks (CNNs) evaluate short-range correlations in input images which progress along the layers, whereas vision transformer (ViT) architectures evaluate long-range correlations, using repeated transformer encoders composed of fully connected layers. Both are designed to solve complex classification tasks but from different perspectives. This study demonstrates that CNNs and ViT architectures stem from a unified underlying learning mechanism, which quantitatively measures the single-nodal performance (SNP) of each node in feedforward (FF) and multi-head attention (MHA) sub-blocks. Each node identifies small clusters of possible output labels, with additional noise represented as labels outside these clusters. These features are progressively sharpened along the transformer encoders, enhancing the signal-to-noise ratio. This unified underlying learning mechanism leads to two main findings. First, it enables an efficient applied nodal diagonal connection (ANDC) pruning technique without affecting the accuracy. Second, based on the SNP, spontaneous symmetry breaking occurs among the MHA heads, such that each head focuses its attention on a subset of labels through cooperation among its SNPs. Consequently, each head becomes an expert in recognizing its designated labels, representing a quantitative MHA modus vivendi mechanism. This statistical mechanics inspired viewpoint enables to reveal macroscopic behavior of the entire network from the microscopic performance of each node. These results are based on a compact convolutional transformer architecture trained on the CIFAR-100 and Flowers-102 datasets and call for their extension to other architectures and applications, such as natural language processing.

arxiv情報

著者 Ella Koresh,Ronit D. Gross,Yuval Meir,Yarden Tzach,Tal Halevi,Ido Kanter
発行日 2025-04-09 13:06:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク