Looped Transformers for Length Generalization

要約

最近の研究では、ゼロからトレーニングされた Transformers が、数値の加算やパリティの計算など、さまざまな算術タスクやアルゴリズム タスクを首尾よく解決できることが示されています。
これらのトランスフォーマは、同じ長さの目に見えない入力をうまく一般化しますが、長さの一般化、つまり、目に見えない長さの入力を処理するのに苦労します。
この研究では、適応ステップ数を備えたループ型トランスフォーマーが長さの一般化を大幅に改善することを実証します。
私たちは、有限サイズの Transformer で表現できる長さの一般化が可能な演算である RASP-L 演算の複数回の反復を含む、既知の反復解を使用したタスクに焦点を当てます。
私たちが提案した学習アルゴリズムを使用してループされた Transformer を訓練し、さまざまなタスクに対して高度に長さの一般化が可能なソリューションを学習することを観察しました。

要約(オリジナル)

Recent work has shown that Transformers trained from scratch can successfully solve various arithmetic and algorithmic tasks, such as adding numbers and computing parity. While these Transformers generalize well on unseen inputs of the same length, they struggle with length generalization, i.e., handling inputs of unseen lengths. In this work, we demonstrate that looped Transformers with an adaptive number of steps significantly improve length generalization. We focus on tasks with a known iterative solution, involving multiple iterations of a RASP-L operation – a length-generalizable operation that can be expressed by a finite-sized Transformer. We train looped Transformers using our proposed learning algorithm and observe that they learn highly length-generalizable solutions for various tasks.

arxiv情報

著者 Ying Fan,Yilun Du,Kannan Ramchandran,Kangwook Lee
発行日 2024-09-25 15:52:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク