Transformers Can Represent $n$-gram Language Models

要約

既存の研究では、計算の形式的なモデルを使用して、変圧器アーキテクチャの表現能力を分析しました。
ただし、これまでのところ、言語 \emph{受け入れ} の観点からアーキテクチャを分析することに重点が置かれてきました。
これは、定義上は文字列上の \emph{確率分布}である \emph{言語モデル} (LM) の研究には不向きな問題であると私たちは主張します。
この論文では、トランスフォーマー LM と、単純で歴史的に関連性のある言語モデルのクラスである $n$-gram LM との関係に焦点を当てます。
ハードまたはスパース アテンション メカニズムを使用する変圧器 LM があらゆる $n$-gram LM を正確に表現できることを示し、その確率的表現能力の具体的な下限を与えます。
これは、変圧器 LM が文字列上の確率分布を表すために使用できるメカニズムを理解するための最初のステップとなります。

要約(オリジナル)

Existing work has analyzed the representational capacity of the transformer architecture by means of formal models of computation. However, the focus so far has been on analyzing the architecture in terms of language \emph{acceptance}. We contend that this is an ill-suited problem in the study of \emph{language models} (LMs), which are definitionally \emph{probability distributions} over strings. In this paper, we focus on the relationship between transformer LMs and $n$-gram LMs, a simple and historically relevant class of language models. We show that transformer LMs using the hard or sparse attention mechanisms can exactly represent any $n$-gram LM, giving us a concrete lower bound on their probabilistic representational capacity. This provides a first step towards understanding the mechanisms that transformer LMs can use to represent probability distributions over strings.

arxiv情報

著者 Anej Svete,Ryan Cotterell
発行日 2024-06-20 15:21:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CC, cs.CL, cs.FL, cs.LG パーマリンク