From Interpolation to Extrapolation: Complete Length Generalization for Arithmetic Transformers

要約

この論文では、加算やパリティなどの算術アルゴリズムを学習する際の変換器モデルの固有の機能を調査します。
実験と注意分析を通じて、最適な長さの一般化を達成するための多くの重要な要素を特定します。
ターゲットを絞った注意バイアスの助けを借りて、変圧器モデルが長い長さにまで一般化できることを示します。
特に、当社のソリューションは、よく知られ理論的に証明されているトランスフォーマーの故障モードであるパリティ タスクを解決します。
次に、注意バイアス キャリブレーション (ABC) を導入します。これは、モデルが適切な注意バイアスを自動的に学習できるようにするキャリブレーション ステージであり、これが相対位置エンコーディングのメカニズムに関連していることを示します。
ABC を使用すると、変換モデルが特定の算術タスクで前例のないほぼ完全な長さの一般化を達成できることを示します。
さらに、ABC が RPE および LoRA と顕著な類似点を持っていることを示し、これはより複雑なタスクへの応用の可能性を示している可能性があります。

要約(オリジナル)

In this paper, we investigate the inherent capabilities of transformer models in learning arithmetic algorithms, such as addition and parity. Through experiments and attention analysis, we identify a number of crucial factors for achieving optimal length generalization. We show that transformer models are able to generalize to long lengths with the help of targeted attention biasing. In particular, our solution solves the Parity task, a well-known and theoretically proven failure mode for Transformers. We then introduce Attention Bias Calibration (ABC), a calibration stage that enables the model to automatically learn the proper attention biases, which we show to be connected to mechanisms in relative position encoding. We demonstrate that using ABC, the transformer model can achieve unprecedented near-perfect length generalization on certain arithmetic tasks. In addition, we show that ABC bears remarkable similarities to RPE and LoRA, which may indicate the potential for applications to more complex tasks.

arxiv情報

著者 Shaoxiong Duan,Yining Shi,Wei Xu
発行日 2024-05-10 13:41:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク