要約
整数の加算などの単純な算術タスクの場合でも、Transformer がトレーニング中に発生するシーケンスよりも長いシーケンスに一般化することは困難です。
この問題に取り組むために、我々は位置結合を提案します。これは、タスクの構造を (デコーダのみの) Transformer の位置エンコーディングに直接埋め込む、シンプルかつ効果的な方法です。
各トークンに一意の位置 ID を割り当てるバニラの絶対位置メカニズムとは異なり、同じ位置 ID を 2 つ以上の「関連する」トークンに割り当てます。
整数加算タスクの場合、同じ重要度の数字は同じ位置にあるものと見なされます。
経験的な面では、提案された位置結合を使用すると、1 ~ 30 桁の加算でトレーニングされたモデルが最大 200 桁の加算 (トレーニングされた長さの 6.67 倍) を一般化できることがわかります。
理論面では、位置が結合された 1 層 Transformer は指数関数的に多くの桁を含む加算タスクを解決できるが、位置情報のない 1 層 Transformer は完全には解決できないことを証明します。
また、位置結合が Nx2 乗算や 2 次元タスクなどの他のアルゴリズム タスクにも適用できることも示します。
要約(オリジナル)
Even for simple arithmetic tasks like integer addition, it is challenging for Transformers to generalize to longer sequences than those encountered during training. To tackle this problem, we propose position coupling, a simple yet effective method that directly embeds the structure of the tasks into the positional encoding of a (decoder-only) Transformer. Taking a departure from the vanilla absolute position mechanism assigning unique position IDs to each of the tokens, we assign the same position IDs to two or more ‘relevant’ tokens; for integer addition tasks, we regard digits of the same significance as in the same position. On the empirical side, we show that with the proposed position coupling, our models trained on 1 to 30-digit additions can generalize up to 200-digit additions (6.67x of the trained length). On the theoretical side, we prove that a 1-layer Transformer with coupled positions can solve the addition task involving exponentially many digits, whereas any 1-layer Transformer without positional information cannot entirely solve it. We also demonstrate that position coupling can be applied to other algorithmic tasks such as Nx2 multiplication and a two-dimensional task.
arxiv情報
著者 | Hanseul Cho,Jaeyoung Cha,Pranjal Awasthi,Srinadh Bhojanapalli,Anupam Gupta,Chulhee Yun |
発行日 | 2024-10-30 16:50:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google