Length Generalization of Causal Transformers without Position Encoding

要約

最近の Transformer ベースの言語モデルでは、より長い文への一般化が重要です。
明示的な位置特徴を操作するアルゴリズムに加えて、位置エンコーディングなし (NoPE) Transformers の成功により、この課題を克服する新しい方法が提供されます。
この論文では、NoPE の長さ汎化特性を研究します。
NoPE は一般的に使用されている明示的な位置エンコーディングよりも長いシーケンスまで拡張できますが、それでもコンテキストの長さに制限があることがわかりました。
我々は、NoPE の一般化の失敗と注意の分散との間の関連性を特定します。
我々は、アテンションヘッドの最適な温度ハイパーパラメータを検索するためのパラメータ効率の高い調整を提案します。これにより、NoPE のコンテキストサイズが大幅に拡張されます。
長いシーケンス言語モデリング、合成パスキー取得タスク、および実際の長いコンテキスト タスクに関する実験では、NoPE が最先端の長さ一般化アルゴリズムを使用して競争力のあるパフォーマンスを達成できることが示されています。
ソースコードは一般公開されています

要約(オリジナル)

Generalizing to longer sentences is important for recent Transformer-based language models. Besides algorithms manipulating explicit position features, the success of Transformers without position encodings (NoPE) provides a new way to overcome the challenge. In this paper, we study the length generalization property of NoPE. We find that although NoPE can extend to longer sequences than the commonly used explicit position encodings, it still has a limited context length. We identify a connection between the failure of NoPE’s generalization and the distraction of attention distributions. We propose a parameter-efficient tuning for searching attention heads’ best temperature hyper-parameters, which substantially expands NoPE’s context size. Experiments on long sequence language modeling, the synthetic passkey retrieval task and real-world long context tasks show that NoPE can achieve competitive performances with state-of-the-art length generalization algorithms. The source code is publicly accessible

arxiv情報

著者 Jie Wang,Tao Ji,Yuanbin Wu,Hang Yan,Tao Gui,Qi Zhang,Xuanjing Huang,Xiaoling Wang
発行日 2024-04-18 14:38:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク