Why are Sensitive Functions Hard for Transformers?

要約

実証研究により、PARITY などの単純な形式言語の計算を学習する際の永続的な困難や、低次関数に対するバイアスなど、トランスフォーマーの学習可能性に関するさまざまなバイアスと制限が特定されています。
しかし、理論的な理解は依然として限られており、既存の表現力理論は現実的な学習能力を過大予測または過小予測しています。
トランス アーキテクチャの下では、損失の状況が入力空間の感度によって制限されることを証明します。出力が入力文字列の多くの部分に敏感なトランスは、パラメータ空間内の孤立した点に存在し、一般化における低感度バイアスにつながります。
我々は、この理論が、低感度および低次数に対する一般化バイアス、PARITY の長さ一般化の難しさなど、変圧器の学習能力とバイアスに関する幅広い経験的観察を統合することを理論的および経験的に示します。
これは、変圧器の誘導バイアスを理解するには、その原理的な表現力だけでなく、損失の状況も研究する必要があることを示しています。

要約(オリジナル)

Empirical studies have identified a range of learnability biases and limitations of transformers, such as a persistent difficulty in learning to compute simple formal languages such as PARITY, and a bias towards low-degree functions. However, theoretical understanding remains limited, with existing expressiveness theory either overpredicting or underpredicting realistic learning abilities. We prove that, under the transformer architecture, the loss landscape is constrained by the input-space sensitivity: Transformers whose output is sensitive to many parts of the input string inhabit isolated points in parameter space, leading to a low-sensitivity bias in generalization. We show theoretically and empirically that this theory unifies a broad array of empirical observations about the learning abilities and biases of transformers, such as their generalization bias towards low sensitivity and low degree, and difficulty in length generalization for PARITY. This shows that understanding transformers’ inductive biases requires studying not just their in-principle expressivity, but also their loss landscape.

arxiv情報

著者 Michael Hahn,Mark Rofin
発行日 2024-05-27 17:01:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク