On the Long Range Abilities of Transformers

要約

最新の DL、特に NLP ドメインでの優位性にもかかわらず、トランスフォーマー アーキテクチャは、この目的のために特別に設計された最近のレイヤーと比較して、長距離タスクでは次善のパフォーマンスを示します。
この研究では、状態空間層、線形 RNN 層、グローバル畳み込み層などの長距離層の主要な属性からインスピレーションを得て、トランスフォーマー アーキテクチャへの最小限の変更で Long Range Arena のパフォーマンスを大幅に向上できることを実証します (
LRA) ベンチマークを使用し、これらの特殊なレイヤーとの差を縮めます。
長距離タスクの 2 つの重要な原則は、(i) 滑らかさへの帰納的バイアスの組み込み、および (ii) 局所性であることを確認しました。
示したように、これらのアイデアをアテンション メカニズムに統合すると、追加の計算量は無視でき、トレーニング可能なパラメーターを追加しなくても、結果が向上します。
また、私たちの理論と実験は、長距離タスクにおける変圧器のパフォーマンスが劣る理由を明らかにし、長距離依存関係をうまく捉えるために不可欠な重要な特性を特定します。

要約(オリジナル)

Despite their dominance in modern DL and, especially, NLP domains, transformer architectures exhibit sub-optimal performance on long-range tasks compared to recent layers that are specifically designed for this purpose. In this work, drawing inspiration from key attributes of long-range layers, such as state-space layers, linear RNN layers, and global convolution layers, we demonstrate that minimal modifications to the transformer architecture can significantly enhance performance on the Long Range Arena (LRA) benchmark, thus narrowing the gap with these specialized layers. We identify that two key principles for long-range tasks are (i) incorporating an inductive bias towards smoothness, and (ii) locality. As we show, integrating these ideas into the attention mechanism improves results with a negligible amount of additional computation and without any additional trainable parameters. Our theory and experiments also shed light on the reasons for the inferior performance of transformers on long-range tasks and identify critical properties that are essential for successfully capturing long-range dependencies.

arxiv情報

著者 Itamar Zimerman,Lior Wolf
発行日 2023-11-28 09:21:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, F.2.2 パーマリンク