Universal Length Generalization with Turing Programs

要約

長さの汎化とは、短い学習シーケンスから長いテストシーケンスへ外挿する能力のことであり、現在の大規模言語モデルの課題である。先行研究では、長さの汎化を達成するために、アーキテクチャやデータ形式の変更が提案されているが、これらの提案は、通常、限られたタスクセットに適用される。先行するスクラッチパッドとチェーンオブソート(CoT)技術を基に、アルゴリズムタスクをチューリングマシンの計算を模倣したステップに分解する新しいCoT戦略であるチューリングプログラムを提案する。このフレームワークは、どのようなアルゴリズムタスクにも対応できる普遍的なものであり、また、コンテキストからテキストをコピーし、若干の修正を加えるだけで済むシンプルなものである。チューリング・プログラムを用いることで、足し算、掛け算、文脈内SGDといった様々なアルゴリズム・タスクにおいて、ロバストな長さの一般化が得られることを示す。次に、変換器がランダムなチューリング・プログラムで長さの汎化を達成することを示し、どのようなアルゴリズム・タスクでも長さの汎化が可能であることを示唆する。最後に、変換器がチューリング・プログラムを実装できることを理論的に証明し、任意のチューリング・マシンをシミュレートする単純なRASP(Weiss et al.)

要約(オリジナル)

Length generalization refers to the ability to extrapolate from short training sequences to long test sequences and is a challenge for current large language models. While prior work has proposed some architecture or data format changes to achieve length generalization, these proposals typically apply to a limited set of tasks. Building on prior scratchpad and Chain-of-Thought (CoT) techniques, we propose Turing Programs, a novel CoT strategy that decomposes an algorithmic task into steps mimicking the computation of a Turing Machine. This framework is both universal, as it can accommodate any algorithmic task, and simple, requiring only copying text from the context with small modifications. We show that by using Turing Programs, we obtain robust length generalization on a range of algorithmic tasks: addition, multiplication and in-context SGD. We then demonstrate that transformers achieve length generalization on random Turing Programs, suggesting that length generalization is possible for any algorithmic task. Finally, we theoretically prove that transformers can implement Turing Programs, constructing a simple RASP (Weiss et al.) program that simulates an arbitrary Turing machine.

arxiv情報

著者 Kaiying Hou,David Brandfonbrener,Sham Kakade,Samy Jelassi,Eran Malach
発行日 2024-07-03 17:53:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク