How Far Can Transformers Reason? The Locality Barrier and Inductive Scratchpad

要約

トランスフォーマーは確立された三段論法を合成することで新しい三段論法を予測できますか?
より一般的には、そのようなモデルで最初から学習できるターゲットの種類は何でしょうか?
最近の研究では、トランスフォーマーが表現力の点でチューリング完全である可能性があることが示されていますが、これは学習可能性の目標には対応していません。
この論文では、弱い学習が通常の Transformer によって効率的に達成できる場合を捉えるための「分布局所性」の概念を提唱しています。局所性は、ターゲットと非自明に相関するためにトークンのヒストグラムに加えて、必要なトークンの最小数を測定します。
追加の仮定の下で実験的および理論的に示されているように、局所性の高い分布は効率的に学習できません。
特に、三段論法は長い連鎖で構成できません。
さらに、(i) 不可知論的なスクラッチパッドは局所性の障壁を打ち破るのに役立たない、(ii) 知識のあるスクラッチパッドは、各ステップで局所性を壊す場合に役立つ、(iii) 「誘導的スクラッチパッド」の概念は両方とも局所性の障壁を突破できることを示します。
局所性を高め、分布外の一般化を改善します。たとえば、一部の算術タスクの入力サイズをほぼ 2 倍に一般化します。

要約(オリジナル)

Can Transformers predict new syllogisms by composing established ones? More generally, what type of targets can be learned by such models from scratch? Recent works show that Transformers can be Turing-complete in terms of expressivity, but this does not address the learnability objective. This paper puts forward the notion of ‘distribution locality’ to capture when weak learning is efficiently achievable by regular Transformers, where the locality measures the least number of tokens required in addition to the tokens histogram to correlate nontrivially with the target. As shown experimentally and theoretically under additional assumptions, distributions with high locality cannot be learned efficiently. In particular, syllogisms cannot be composed on long chains. Furthermore, we show that (i) an agnostic scratchpad cannot help to break the locality barrier, (ii) an educated scratchpad can help if it breaks the locality at each step, (iii) a notion of ‘inductive scratchpad’ can both break the locality and improve the out-of-distribution generalization, e.g., generalizing to almost double input size for some arithmetic tasks.

arxiv情報

著者 Emmanuel Abbe,Samy Bengio,Aryo Lotfi,Colin Sandon,Omid Saremi
発行日 2024-06-10 17:05:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク