Transformers as Transducers


これには、人々が「トランスフォーマーのように考える」ことを助けるように設計されたプログラミング言語である RASP のバリアントを中間表現として使用します。
既存のブール変数 B-RASP をシーケンス間関数に拡張し、一次有理関数 (文字列の回転など) を正確に計算することを示します。
次に、2 つの新しい拡張機能を紹介します。
B-RASP[pos] は、位置の計算 (文字列の前半のコピーなど) を可能にし、すべての 1 次正規関数を含みます。
S-RASP はプレフィックス sum を追加します。これにより追加の算術演算 (文字列の 2 乗など) が可能になり、すべての 1 次多重正規関数が含まれます。
最後に、マスクされた平均-ハード アテンション トランスフォーマーが S-RASP をシミュレートできることを示します。


We study the sequence-to-sequence mapping capacity of transformers by relating them to finite transducers, and find that they can express surprisingly large classes of transductions. We do so using variants of RASP, a programming language designed to help people ‘think like transformers,’ as an intermediate representation. We extend the existing Boolean variant B-RASP to sequence-to-sequence functions and show that it computes exactly the first-order rational functions (such as string rotation). Then, we introduce two new extensions. B-RASP[pos] enables calculations on positions (such as copying the first half of a string) and contains all first-order regular functions. S-RASP adds prefix sum, which enables additional arithmetic operations (such as squaring a string) and contains all first-order polyregular functions. Finally, we show that masked average-hard attention transformers can simulate S-RASP. A corollary of our results is a new proof that transformer decoders are Turing-complete.


著者 Lena Strobl,Dana Angluin,David Chiang,Jonathan Rawski,Ashish Sabharwal
発行日 2024-04-02 15:34:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.FL, cs.LG パーマリンク