What Algorithms can Transformers Learn? A Study in Length Generalization

要約

大規模な言語モデルは、驚くべき創発一般化特性を示しますが、算術やパリティなどの多くの単純な推論タスクでも困難を伴います。
これにより、Transformer モデルがタスクを解決するための真のアルゴリズムを学習できるかどうか、またいつ学習できるかという疑問が生じます。
私たちは、アルゴリズムタスクにおける長さの一般化の特定の設定におけるトランスフォーマーの能力の範囲を研究します。
ここでは、Transformer が特定のタスクに対していつ、どのようにして強力な長さの一般化を示すことができるかを理解するための統一フレームワークを提案します。
具体的には、トランスフォーマーの計算モデル用に設計されたプログラミング言語である RASP (Weiss et al., 2021) を活用し、RASP 一般化予想を導入します。トランスフォーマーは、タスクが解決できる場合、そのタスクに関して長さ一般化する傾向があります。
すべての入力長に対して機能する短い RASP プログラムによって実行されます。
この単純な推測は、アルゴリズム タスクにおける長さの一般化のほとんどの既知の例を見事に捉えています。
さらに、洞察を活用して、従来の困難なタスク (パリティや加算など) の汎化パフォーマンスを大幅に向上させます。
理論面では、Abbe らの学習の「min-degree-interpolator」モデルを使用する簡単な例を示します。
(2023) はトランスフォーマーの配布外での動作を正確に予測していませんが、私たちの推測は予測しています。
全体として、私たちの研究は、構成の一般化のメカニズムとトランスフォーマーのアルゴリズム機能について新しい視点を提供します。

要約(オリジナル)

Large language models exhibit surprising emergent generalization properties, yet also struggle on many simple reasoning tasks such as arithmetic and parity. This raises the question of if and when Transformer models can learn the true algorithm for solving a task. We study the scope of Transformers’ abilities in the specific setting of length generalization on algorithmic tasks. Here, we propose a unifying framework to understand when and how Transformers can exhibit strong length generalization on a given task. Specifically, we leverage RASP (Weiss et al., 2021) — a programming language designed for the computational model of a Transformer — and introduce the RASP-Generalization Conjecture: Transformers tend to length generalize on a task if the task can be solved by a short RASP program which works for all input lengths. This simple conjecture remarkably captures most known instances of length generalization on algorithmic tasks. Moreover, we leverage our insights to drastically improve generalization performance on traditionally hard tasks (such as parity and addition). On the theoretical side, we give a simple example where the ‘min-degree-interpolator’ model of learning from Abbe et al. (2023) does not correctly predict Transformers’ out-of-distribution behavior, but our conjecture does. Overall, our work provides a novel perspective on the mechanisms of compositional generalization and the algorithmic capabilities of Transformers.

arxiv情報

著者 Hattie Zhou,Arwen Bradley,Etai Littwin,Noam Razin,Omid Saremi,Josh Susskind,Samy Bengio,Preetum Nakkiran
発行日 2023-10-24 17:43:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML パーマリンク