The Information Pathways Hypothesis: Transformers are Dynamic Self-Ensembles

要約

トランスフォーマーは、長距離の接続に多くの柔軟性を与える高密度な自己保持機構を使用しています。深いトランスフォーマーの複数の層にわたって、可能な接続パターンの数は指数関数的に増加します。しかし、これらのうちネットワークの性能に寄与するものはごくわずかであり、必須であるものはさらに少ない。我々は、トランスフォーマー内には、独立に学習できる情報パスウェイと呼ばれる疎な接続のサブネットワークが存在すると仮定している。しかし、これらの経路は動的(すなわち入力依存的)であるため、訓練中に密な自己注意を刈り取ることは困難である。しかし、これらのパスウェイの全体的な分布は、しばしば予測可能である。我々はこの事実を利用して、ストキャストサブサンプル自己注意(SSA)-訓練中に自己注意のメモリと計算コストの両方を4〜8倍削減できる変換器の汎用訓練戦略-を提案し、同時に正規化手法として機能し、密な訓練よりも一般化を改善する。我々は、ネットワーク内のサブサンプリングされた経路からサブモデルのアンサンブルを形成することができ、高密度の対応するものよりも優れた性能を達成することができることを示す。生成的、識別的な設定において、様々なNLP、コンピュータビジョン、グラフ学習タスクで実験を行い、我々の主張に対する経験的証拠を提供し、提案手法の有効性を示す。

要約(オリジナル)

Transformers use the dense self-attention mechanism which gives a lot of flexibility for long-range connectivity. Over multiple layers of a deep transformer, the number of possible connectivity patterns increases exponentially. However, very few of these contribute to the performance of the network, and even fewer are essential. We hypothesize that there are sparsely connected sub-networks within a transformer, called information pathways which can be trained independently. However, the dynamic (i.e., input-dependent) nature of these pathways makes it difficult to prune dense self-attention during training. But the overall distribution of these pathways is often predictable. We take advantage of this fact to propose Stochastically Subsampled self-Attention (SSA) – a general-purpose training strategy for transformers that can reduce both the memory and computational cost of self-attention by 4 to 8 times during training while also serving as a regularization method – improving generalization over dense training. We show that an ensemble of sub-models can be formed from the subsampled pathways within a network, which can achieve better performance than its densely attended counterpart. We perform experiments on a variety of NLP, computer vision and graph learning tasks in both generative and discriminative settings to provide empirical evidence for our claims and show the effectiveness of the proposed method.

arxiv情報

著者 Md Shamim Hussain,Mohammed J. Zaki,Dharmashankar Subramanian
発行日 2023-06-02 17:28:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク