要約
トランスベースの言語モデル(LMS)は、広範な経験的成功を達成していますが、それらの理論的表現力は部分的にしか理解されていません。
以前の研究は、多くの場合、実世界の変圧器から分岐する任意の数値精度や硬い注意などの仮定を持つ理想化されたモデルに依存しています。
この作業では、厳密な将来のマスキングとソフトな注意を払って、固定精度トランスの正確な特性評価を提供します。これは、より実用的な実装をより密接に反映する理想化です。
これらのモデルは、単一の時間演算子のみを含む線形時間論理の特定のフラグメントである過去の演算子と同じように正確に表現力があることを示します。
さらに、この論理を、正式な言語理論、オートマトン理論、代数の確立されたクラスに関連付け、トランスの表現力を理解するための豊富で統一された理論的枠組みをもたらします。
最後に、理論と密接に整合する経験的結果を提示します。理論的能力内の言語で訓練されたトランスは、長さで完全に一般化しますが、それを超えた言語を一般化することは一貫していません。
要約(オリジナル)
Transformer-based language models (LMs) have achieved widespread empirical success, but their theoretical expressive power remains only partially understood. Prior work often relies on idealized models with assumptions — such as arbitrary numerical precision and hard attention — that diverge from real-world transformers. In this work, we provide an exact characterization of fixed-precision transformers with strict future masking and soft attention, an idealization that more closely mirrors practical implementations. We show that these models are precisely as expressive as a specific fragment of linear temporal logic that includes only a single temporal operator: the past operator. We further relate this logic to established classes in formal language theory, automata theory, and algebra, yielding a rich and unified theoretical framework for understanding transformer expressivity. Finally, we present empirical results that align closely with our theory: transformers trained on languages within their theoretical capacity generalize perfectly over lengths, while they consistently fail to generalize on languages beyond it.
arxiv情報
著者 | Jiaoda Li,Ryan Cotterell |
発行日 | 2025-05-29 16:30:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google