要約
これまでの研究では、ブール回路やチューリング マシンのシミュレーションにおける Transformer モデルの計算表現力が調査されてきました。
しかし、観測データからこれらのシミュレータを学習できるかどうかは未解決の問題のままです。
私たちの研究では、線形アテンションを備えた単層トランスフォーマーに対する最初の多項式時間学習可能性の結果 (特に強力で不可知論的な PAC 学習) を提供することで、このギャップに対処しています。
我々は、線形注意が適切に定義された RKHS における線形予測子としてみなされる可能性があることを示します。
結果として、線形変換器の学習の問題は、拡張された特徴空間における通常の線形予測器の学習の問題に変換でき、そのような予測器はマルチヘッド線形変換器に変換し直すことができます。
一般化に移り、すべての経験的リスク最小化要素がデータを生成した線形変換器と同等 (自明な対称性まで) であるトレーニング データセットを効率的に特定する方法を示します。これにより、学習されたモデルがすべての入力にわたって正しく一般化されることが保証されます。
最後に、連想メモリ、有限オートマトン、多項式に制限された計算履歴を持つユニバーサル チューリング マシン (UTM) のクラスなど、線形アテンションによって表現可能であり、したがって多項式時間学習が可能な計算の例を示します。
私たちは、ランダムな線形注意ネットワークの学習、キーと値の関連付け、有限オートマトンの実行方法の学習という 3 つのタスクに関する理論的発見を経験的に検証します。
私たちの発見は、Transformer の理論的表現力と学習可能性の間の重大なギャップを埋め、柔軟で一般的な計算モデルが効率的に学習可能であることを示しています。
要約(オリジナル)
Previous research has explored the computational expressivity of Transformer models in simulating Boolean circuits or Turing machines. However, the learnability of these simulators from observational data has remained an open question. Our study addresses this gap by providing the first polynomial-time learnability results (specifically strong, agnostic PAC learning) for single-layer Transformers with linear attention. We show that linear attention may be viewed as a linear predictor in a suitably defined RKHS. As a consequence, the problem of learning any linear transformer may be converted into the problem of learning an ordinary linear predictor in an expanded feature space, and any such predictor may be converted back into a multiheaded linear transformer. Moving to generalization, we show how to efficiently identify training datasets for which every empirical risk minimizer is equivalent (up to trivial symmetries) to the linear Transformer that generated the data, thereby guaranteeing the learned model will correctly generalize across all inputs. Finally, we provide examples of computations expressible via linear attention and therefore polynomial-time learnable, including associative memories, finite automata, and a class of Universal Turing Machine (UTMs) with polynomially bounded computation histories. We empirically validate our theoretical findings on three tasks: learning random linear attention networks, key–value associations, and learning to execute finite automata. Our findings bridge a critical gap between theoretical expressivity and learnability of Transformers, and show that flexible and general models of computation are efficiently learnable.
arxiv情報
著者 | Morris Yau,Ekin Akyürek,Jiayuan Mao,Joshua B. Tenenbaum,Stefanie Jegelka,Jacob Andreas |
発行日 | 2024-10-18 17:15:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google