Unified CNNs and transformers underlying learning mechanism reveals multi-head attention modus vivendi

要約

畳み込みニューラル ネットワーク (CNN) は、レイヤーに沿って進行する入力画像の短距離相関を評価します。一方、ビジョン トランスフォーマー (ViT) アーキテクチャは、完全に接続されたレイヤーで構成される反復トランスフォーマー エンコーダーを使用して長距離相関を評価します。
どちらも複雑な分類タスクを解決するように設計されていますが、視点は異なります。
この研究は、CNN と ViT アーキテクチャが、フィードフォワード (FF) およびマルチヘッド アテンション (MHA) サブブロック内の各ノードの単一ノード パフォーマンス (SNP) を定量的に測定する、統合された基礎となる学習メカニズムに由来していることを示しています。
各ノードは、可能な出力ラベルの小さなクラスターを識別し、追加のノイズはこれらのクラスターの外側のラベルとして表されます。
これらの特徴はトランスエンコーダーに沿って徐々にシャープになり、信号対ノイズ比が向上します。
この統合された基礎的な学習メカニズムにより、2 つの主な発見が得られます。
まず、精度に影響を与えることなく、効率的な適用節点対角接続 (ANDC) 枝刈り手法が可能になります。
第 2 に、SNP に基づいて、MHA ヘッド間で自発的な対称性の破れが発生し、各ヘッドがその SNP 間の協力を通じてラベルのサブセットに注意を集中します。
その結果、各頭は指定されたラベルを認識する専門家となり、定量的な MHA 生存機構を表します。
これらの結果は、CIFAR-100 および Flowers-102 データセットでトレーニングされたコンパクトな畳み込み変換アーキテクチャに基づいており、自然言語処理などの他のアーキテクチャやアプリケーションへの拡張が必要です。

要約(オリジナル)

Convolutional neural networks (CNNs) evaluate short-range correlations in input images which progress along the layers, whereas vision transformer (ViT) architectures evaluate long-range correlations, using repeated transformer encoders composed of fully connected layers. Both are designed to solve complex classification tasks but from different perspectives. This study demonstrates that CNNs and ViT architectures stem from a unified underlying learning mechanism, which quantitatively measures the single-nodal performance (SNP) of each node in feedforward (FF) and multi-head attention (MHA) subblocks. Each node identifies small clusters of possible output labels, with additional noise represented as labels outside these clusters. These features are progressively sharpened along the transformer encoders, enhancing the signal-to-noise ratio. This unified underlying learning mechanism leads to two main findings. First, it enables an efficient applied nodal diagonal connection (ANDC) pruning technique without affecting the accuracy. Second, based on the SNP, spontaneous symmetry breaking occurs among the MHA heads, such that each head focuses its attention on a subset of labels through cooperation among its SNPs. Consequently, each head becomes an expert in recognizing its designated labels, representing a quantitative MHA modus vivendi mechanism. These results are based on a compact convolutional transformer architecture trained on the CIFAR-100 and Flowers-102 datasets and call for their extension to other architectures and applications, such as natural language processing.

arxiv情報

著者 Ella Koresh,Ronit D. Gross,Yuval Meir,Yarden Tzach,Tal Halevi,Ido Kanter
発行日 2025-01-22 14:19:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク