Transformers as Transducers

要約

私たちは、変換器を有限の変換器に関連付けることによって、変換器の系列間マッピング能力を研究し、変換器が驚くほど大きなクラスの変換を表現できることを発見しました。
これには、人々が「トランスフォーマーのように考える」ことを助けるように設計されたプログラミング言語である RASP のバリアントを中間表現として使用します。
既存のブール変数 B-RASP をシーケンス間関数に拡張し、一次有理関数 (文字列の回転など) を正確に計算することを示します。
次に、2 つの新しい拡張機能を紹介します。
B-RASP[pos] は、位置の計算 (文字列の前半のコピーなど) を可能にし、すべての 1 次正規関数を含みます。
S-RASP はプレフィックス sum を追加します。これにより追加の算術演算 (文字列の 2 乗など) が可能になり、すべての 1 次多重正規関数が含まれます。
最後に、マスクされた平均-ハード アテンション トランスフォーマーが S-RASP をシミュレートできることを示します。
私たちの結果の当然の帰結として、変圧器デコーダがチューリング完全であるという新たな証明が得られます。

要約(オリジナル)

We study the sequence-to-sequence mapping capacity of transformers by relating them to finite transducers, and find that they can express surprisingly large classes of transductions. We do so using variants of RASP, a programming language designed to help people ‘think like transformers,’ as an intermediate representation. We extend the existing Boolean variant B-RASP to sequence-to-sequence functions and show that it computes exactly the first-order rational functions (such as string rotation). Then, we introduce two new extensions. B-RASP[pos] enables calculations on positions (such as copying the first half of a string) and contains all first-order regular functions. S-RASP adds prefix sum, which enables additional arithmetic operations (such as squaring a string) and contains all first-order polyregular functions. Finally, we show that masked average-hard attention transformers can simulate S-RASP. A corollary of our results is a new proof that transformer decoders are Turing-complete.

arxiv情報

著者 Lena Strobl,Dana Angluin,David Chiang,Jonathan Rawski,Ashish Sabharwal
発行日 2024-04-02 15:34:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.FL, cs.LG パーマリンク