NoPE: The Counting Power of Transformers with No Positional Encodings

要約

位置エンコーディング(PES)は、変圧器の表現力を確保するために不可欠であるようです。
それらがなければ、注意トランスは単語の袋モデルに減ります。
ユニークなハードな注意メカニズムを備えたNOPE-TRANSFORMERS(つまり、PESなし)は、ごく最近、通常の言語、つまり限られたカウント能力を備えていることのみを表現できることが示されました。
このホワイトペーパーでは、平均的な注意メカニズムがあるため、NOPE-TRANSFORMERSは依然として驚くほど表現力があります。多変量多項式方程式(すなわち、ディオファンティン方程式)に対する非陰性整数解に対応する言語を表現できます。
実際、私たちは平均的なハードな注意Nope-ahatsformers(nope-ahats)によって表現可能な言​​語の正確な特性評価を提供します。それらは、私たちが\ emphing {Sem-algebraic sets}と呼ぶもの、すなわち、多変量のポリノミアの不快感のシステムに対する非否定整数溶液のセットの給与組合に正確に対応しています。
私たちは、私たちの特徴づけのいくつかの興味深い結果を得ます。
第一に、NOPE-Transformersは、単純化されたカウンターマシンやペトリネットなどの確立されたモデルよりもはるかに複雑なカウントプロパティを表現できますが、非常に単純なカウントプロパティを表現することはできません。
第二に、NOPE-Transformersを分析する問題は、たとえば、与えられたNOPEトランスが1つのクラスのすべての入力文字列を分類するかどうか、容認できません。
結果を補完するために、任意のPESでさえ平均的なハード注意トランスで表現できない数える言語を示しますが、回路の複雑さクラスTC $^0 $で表現可能で、未解決の問題に答えます。

要約(オリジナル)

Positional Encodings (PEs) seem to be indispensable for ensuring expressiveness of transformers; without them attention transformers reduce to a bag-of-word model. NoPE-transformers (i.e. with No PEs) with unique hard attention mechanisms were very recently shown to only be able to express regular languages, i.e., with limited counting ability. This paper shows that, with average hard attention mechanisms, NoPE-transformers are still surprisingly expressive: they can express counting languages corresponding to nonnegative integer solutions to multivariate polynomial equations (i.e. Diophantine equations), reasoning about which is well-known to be undecidable. In fact, we provide a precise characterization of languages expressible by Average Hard Attention NoPE-Transformers (NoPE-AHATs): they correspond precisely to what we call \emph{semi-algebraic sets}, i.e., finite unions of sets of nonnegative integer solutions to systems of multivariate polynomial inequations. We obtain several interesting consequences of our characterization. Firstly, NoPE-transformers can express counting properties that are far more complex than established models like simplified counter machines and Petri nets, but cannot express a very simple counting property of PARITY. Secondly, the problem of analyzing NoPE-transformers is undecidable, e.g., whether a given NoPE transformer classifies all input strings in one class. To complement our results, we exhibit a counting language that is not expressible by average hard attention transformers even with arbitrary PEs but is expressible in the circuit complexity class TC$^0$, answering an open problem.

arxiv情報

著者 Chris Köcher,Alexander Kozachinskiy,Anthony Widjaja Lin,Marco Sälzer,Georg Zetzsche
発行日 2025-05-16 12:56:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.FL, cs.LG パーマリンク