Attention Alignment and Flexible Positional Embeddings Improve Transformer Length Extrapolation

要約

理想的な長さ推定可能な Transformer 言語モデルは、微調整を行わずにトレーニング長よりも長いシーケンスを処理できます。
このようなロングコンテキストの利用機能は、柔軟な位置埋め込み設計に大きく依存しています。
既存の大規模な事前トレーニング済み Transformer 言語モデルの柔軟性を調査した結果、位置埋め込みが豊富で柔軟な注意パターンを捕捉するため、T5 ファミリーは詳しく調べる価値があることがわかりました。
ただし、T5 には注意が分散するという問題があります。入力シーケンスが長いほど、注意の分布は平坦になります。
この問題を軽減するために、温度スケーリングによる 2 つの注意調整戦略を提案します。
私たちの調査結果は、言語モデリング、検索、複数ドキュメントの質問応答、およびコード補完タスクにおける T5 のロングコンテキストの利用能力が、微調整なしで向上していることを示しています。
これは、柔軟な位置埋め込み設計と注意の調整が、トランスの長さの推定に大いに役立つ可能性があることを示唆しています。

要約(オリジナル)

An ideal length-extrapolatable Transformer language model can handle sequences longer than the training length without any fine-tuning. Such long-context utilization capability relies heavily on a flexible positional embedding design. Upon investigating the flexibility of existing large pre-trained Transformer language models, we find that the T5 family deserves a closer look, as its positional embeddings capture rich and flexible attention patterns. However, T5 suffers from the dispersed attention issue: the longer the input sequence, the flatter the attention distribution. To alleviate the issue, we propose two attention alignment strategies via temperature scaling. Our findings show improvement on the long-context utilization capability of T5 on language modeling, retrieval, multi-document question answering, and code completion tasks without any fine-tuning. This suggests that a flexible positional embedding design and attention alignment can go a long way toward Transformer length extrapolation.

arxiv情報

著者 Ta-Chung Chi,Ting-Han Fan,Alexander I. Rudnicky
発行日 2023-11-15 15:55:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク