Centered Self-Attention Layers

要約

ディープラーニングアーキテクチャでは、変換器の自己アテンション機構やグラフニューラルネットワークのメッセージパッシング機構が繰り返し適用されている。我々は、この適用が必然的に過剰平滑化、すなわち、変換器の異なるトークンやグラフニューラルネットワークの異なるノードに対して深層で類似した表現になってしまうことを示す。我々の分析に基づき、これらのメカニズムの集約演算子に対する補正項を提示する。経験的に、この単純な項により、視覚変換器における過平滑化問題の多くが解消され、複数の補助ネットワークや訓練フレーズを導入する精巧なベースライン手法を凌ぐ、弱い教師付きセグメンテーションの性能が得られる。グラフニューラルネットワークでは、この補正項により、同じ問題に対する最近の多くの解決策よりも効果的に非常に深いアーキテクチャを訓練することができます。

要約(オリジナル)

The self-attention mechanism in transformers and the message-passing mechanism in graph neural networks are repeatedly applied within deep learning architectures. We show that this application inevitably leads to oversmoothing, i.e., to similar representations at the deeper layers for different tokens in transformers and different nodes in graph neural networks. Based on our analysis, we present a correction term to the aggregating operator of these mechanisms. Empirically, this simple term eliminates much of the oversmoothing problem in visual transformers, obtaining performance in weakly supervised segmentation that surpasses elaborate baseline methods that introduce multiple auxiliary networks and training phrases. In graph neural networks, the correction term enables the training of very deep architectures more effectively than many recent solutions to the same problem.

arxiv情報

著者 Ameen Ali,Tomer Galanti,Lior Wolf
発行日 2023-06-02 15:19:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク