ALTA: Compiler-Based Analysis of Transformers

要約

私たちは、ALTA と呼ばれる新しいプログラミング言語と、ALTA プログラムを Transformer の重みにマッピングできるコンパイラを提案します。
ALTA は、Weiss らによって提案された言語 RASP からインスピレーションを受けています。
(2021)、および Tracr (Lindner et al.、2023)、RASP プログラムから Transformer の重みまでのコンパイラー。
ALTA は、この以前の成果を補完および拡張し、ループを表現し、プログラムを Universal Transformer にコンパイルする機能、その他の利点を提供します。
ALTA を使用すると、中間のスクラッチパッド デコード ステップを必要とせずに、パリティと加算を計算するための長さ不変アルゴリズムを Transformers がどのように表現できるか、また合成汎化タスクの SCAN ベンチマークのソリューションをどのように表現できるかを建設的に示すことができます。
また、アルゴリズムの表現可能性は確立されているものの、特定のトレーニング セットでのエンドツーエンドのトレーニングが目的のアルゴリズムと一致する動作を誘発できないケースを分析するためのツールも提案します。
この目的を達成するために、より詳細な監視信号として ALTA 実行トレースからのトレーニングを検討します。
これにより、さまざまなアルゴリズムの学習可能性をデータの可用性や位置エンコーディングなどのモデリング決定に関連付ける追加の実験や理論分析が可能になります。
私たちは、ALTA フレームワーク (言語仕様、シンボリック インタプリタ、ウェイト コンパイラ) をコミュニティで利用できるようにし、さらなるアプリケーションと洞察を可能にします。

要約(オリジナル)

We propose a new programming language called ALTA and a compiler that can map ALTA programs to Transformer weights. ALTA is inspired by RASP, a language proposed by Weiss et al. (2021), and Tracr (Lindner et al., 2023), a compiler from RASP programs to Transformer weights. ALTA complements and extends this prior work, offering the ability to express loops and to compile programs to Universal Transformers, among other advantages. ALTA allows us to constructively show how Transformers can represent length-invariant algorithms for computing parity and addition, as well as a solution to the SCAN benchmark of compositional generalization tasks, without requiring intermediate scratchpad decoding steps. We also propose tools to analyze cases where the expressibility of an algorithm is established, but end-to-end training on a given training set fails to induce behavior consistent with the desired algorithm. To this end, we explore training from ALTA execution traces as a more fine-grained supervision signal. This enables additional experiments and theoretical analyses relating the learnability of various algorithms to data availability and modeling decisions, such as positional encodings. We make the ALTA framework — language specification, symbolic interpreter, and weight compiler — available to the community to enable further applications and insights.

arxiv情報

著者 Peter Shaw,James Cohan,Jacob Eisenstein,Kenton Lee,Jonathan Berant,Kristina Toutanova
発行日 2024-10-23 17:58:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク