Tracr: Compiled Transformers as a Laboratory for Interpretability

要約

人間が読めるプログラムを標準のデコーダ専用トランスフォーマ モデルに「コンパイル」する方法を示します。
私たちのコンパイラー Tracr は、既知の構造を持つモデルを生成します。
この構造は実験の計画に使用できます。
たとえば、多段階アルゴリズムを実行する変圧器の「重ね合わせ」を研究するために使用します。
さらに、Tracr でコンパイルされたモデルの既知の構造は、解釈可能性メソッドを評価するためのグラウンドトゥルースとして機能します。
一般に、トランスフォーマーが学習した「プログラム」は不明であるため、解釈が成功したかどうかは不明です。
トークン頻度の計算、並べ替え、括弧のチェックなどのプログラムを実装および検証することで、アプローチを実証します。
Tracr のオープンソース実装は https://github.com/deepmind/tracr で提供されています。

要約(オリジナル)

We show how to ‘compile’ human-readable programs into standard decoder-only transformer models. Our compiler, Tracr, generates models with known structure. This structure can be used to design experiments. For example, we use it to study ‘superposition’ in transformers that execute multi-step algorithms. Additionally, the known structure of Tracr-compiled models can serve as ground-truth for evaluating interpretability methods. Commonly, because the ‘programs’ learned by transformers are unknown it is unclear whether an interpretation succeeded. We demonstrate our approach by implementing and examining programs including computing token frequencies, sorting, and parenthesis checking. We provide an open-source implementation of Tracr at https://github.com/deepmind/tracr.

arxiv情報

著者 David Lindner,János Kramár,Sebastian Farquhar,Matthew Rahtz,Thomas McGrath,Vladimir Mikulik
発行日 2023-06-07 13:21:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク