要約
変圧器モデルは、幅広い用途で目覚ましい成果を上げています。
ただし、そのスケーラビリティは、シーケンス長に関するセルフ アテンション メカニズムの 2 次時間とメモリの複雑さによって妨げられます。
この制限は、長い文書や高解像度の画像を扱う場合に大きな障害となります。
本研究では、注意マトリックスの分布とその集中力を分析することにより、自己注意のメカニズムを研究します。
さらに、これらの量を測定するための機器を提案し、元の自己注意の分布と集中の挙動をエミュレートするように設計された新しい自己注意メカニズムである線形対数正規注意を導入します。
一般的な自然言語ベンチマークに関する私たちの実験結果から、私たちが提案する線形対数正規アテンションが他の線形化されたアテンションの代替案よりも優れており、トランスフォーマー モデルのスケーラビリティを強化するための有望な手段を提供することが明らかになりました。
私たちのコードは補足資料で入手できます。
要約(オリジナル)
Transformer models have achieved remarkable results in a wide range of applications. However, their scalability is hampered by the quadratic time and memory complexity of the self-attention mechanism concerning the sequence length. This limitation poses a substantial obstacle when dealing with long documents or high-resolution images. In this work, we study the self-attention mechanism by analyzing the distribution of the attention matrix and its concentration ability. Furthermore, we propose instruments to measure these quantities and introduce a novel self-attention mechanism, Linear Log-Normal Attention, designed to emulate the distribution and concentration behavior of the original self-attention. Our experimental results on popular natural language benchmarks reveal that our proposed Linear Log-Normal Attention outperforms other linearized attention alternatives, offering a promising avenue for enhancing the scalability of transformer models. Our code is available in supplementary materials.
arxiv情報
著者 | Yury Nahshan,Joseph Kampeas,Emir Haleva |
発行日 | 2023-11-22 17:30:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google