Transformers Can Achieve Length Generalization But Not Robustly

要約

長さの一般化は、短いトレーニング シーケンスから長いテスト シーケンスに外挿する機能として定義され、言語モデルにとって重要な課題です。
この問題は、比較的単純なタスクを処理する大規模な Transformer でも発生しません。
この論文では、2 つの整数を加算するタスクを使用して、Transformer の長さの一般化能力をテストします。
長さの一般化の成功は、データ形式と位置エンコーディングのタイプに複雑に関連していることを示します。
データ形式と位置エンコーディングの適切な組み合わせを使用して、標準の Transformer が入力長の 2.5 倍のシーケンス長に推定できることを初めて示しました。
それにもかかわらず、分布内汎化とは異なり、長さの汎化は依然として脆弱であり、ランダムな重みの初期化やトレーニング データの順序などの要因に大きく影響され、異なるランダム シード間で大きな差異が生じます。

要約(オリジナル)

Length generalization, defined as the ability to extrapolate from shorter training sequences to longer test ones, is a significant challenge for language models. This issue persists even with large-scale Transformers handling relatively straightforward tasks. In this paper, we test the Transformer’s ability of length generalization using the task of addition of two integers. We show that the success of length generalization is intricately linked to the data format and the type of position encoding. Using the right combination of data format and position encodings, we show for the first time that standard Transformers can extrapolate to a sequence length that is 2.5x the input length. Nevertheless, unlike in-distribution generalization, length generalization remains fragile, significantly influenced by factors like random weight initialization and training data order, leading to large variances across different random seeds.

arxiv情報

著者 Yongchao Zhou,Uri Alon,Xinyun Chen,Xuezhi Wang,Rishabh Agarwal,Denny Zhou
発行日 2024-02-14 18:18:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク