Counting Like Transformers: Compiling Temporal Counting Logic Into Softmax Transformers

要約

トランスフォーマーの表現力に関する形式的な限界を導き出すこと、および既知のアルゴリズムを実装するために構築されたトランスフォーマーを研究することは、どちらもトランスフォーマーの計算能力をより深く理解するための効果的な方法です。
両端に向けて、時間カウント ロジック $\textsf{K}_\text{t}$[#] を RASP バリアント $\textsf{C-RASP}$ とともに導入します。
我々は、これらが互いに同等であり、これらを合わせて、無制限の入力サイズを持つ将来マスクされたソフト アテンション トランスフォーマーの形式的表現力に関する最もよく知られた下限であることを示します。
すべての $\textsf{K}_\text{t}$[#] 式をこれらのトランスフォーマーにコンパイルできることを示すことで、これを証明します。

要約(オリジナル)

Deriving formal bounds on the expressivity of transformers, as well as studying transformers that are constructed to implement known algorithms, are both effective methods for better understanding the computational power of transformers. Towards both ends, we introduce the temporal counting logic $\textsf{K}_\text{t}$[#] alongside the RASP variant $\textsf{C-RASP}$. We show they are equivalent to each other, and that together they are the best-known lower bound on the formal expressivity of future-masked soft attention transformers with unbounded input size. We prove this by showing all $\textsf{K}_\text{t}$[#] formulas can be compiled into these transformers.

arxiv情報

著者 Andy Yang,David Chiang
発行日 2024-12-01 20:48:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.FL, cs.LG, cs.LO パーマリンク