Exploring Transformer Extrapolation

要約

長さの外挿は、トレーニングで使用されるシーケンスよりも長いシーケンスでトランスフォーマーをテストできるため、最近かなりの注目を集めています。
以前の研究では、慎重に設計された相対位置エンコーディング (RPE) を使用することでこの特性を達成できることが示されています。
これらの方法はさまざまなコーパスでうまく機能しますが、長さの外挿の条件はまだ調査されていません。
この論文では、徹底的な数学的および経験的分析を通じて、どのタイプの RPE が長さの外挿を可能にするかを決定することを試みます。
RPE の指数関数に対応する系列が収束する限り、変圧器は確実にこの特性を持っていることがわかります。
条件から 2 つの実践が導出され、さまざまなコーパスの言語モデリング タスクで検討されます。
条件からのボーナスとして、トレーニング手順を踏まずに RPE の受容野を測定するための新しい理論受容野 (TRF) を導き出します。
発見された条件の実行可能性を実証するために、Wikitext-103、Books、Github、WikiBook データセットに対して広範な実験が行われています。
また、さまざまなモデルにわたって TRF と経験的受容野 (ERF) を比較し、前述のデータセットで一貫して一致する傾向を示しています。
コードは https://github.com/OpenNLPLab/Rpe で入手できます。

要約(オリジナル)

Length extrapolation has attracted considerable attention recently since it allows transformers to be tested on longer sequences than those used in training. Previous research has shown that this property can be attained by using carefully designed Relative Positional Encodings (RPEs). While these methods perform well on a variety of corpora, the conditions for length extrapolation have yet to be investigated. This paper attempts to determine what types of RPEs allow for length extrapolation through a thorough mathematical and empirical analysis. We discover that a transformer is certain to possess this property as long as the series that corresponds to the RPE’s exponential converges. Two practices are derived from the conditions and examined in language modeling tasks on a variety of corpora. As a bonus from the conditions, we derive a new Theoretical Receptive Field (TRF) to measure the receptive field of RPEs without taking any training steps. Extensive experiments are conducted on the Wikitext-103, Books, Github, and WikiBook datasets to demonstrate the viability of our discovered conditions. We also compare TRF to Empirical Receptive Field (ERF) across different models, showing consistently matched trends on the aforementioned datasets. The code is available at https://github.com/OpenNLPLab/Rpe.

arxiv情報

著者 Zhen Qin,Yiran Zhong,Hui Deng
発行日 2023-07-19 17:37:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク