Tracr: Compiled Transformers as a Laboratory for Interpretability

要約

解釈可能性の研究は、機械学習 (ML) モデルを理解するためのツールを構築することを目的としています。
ただし、ML モデルが実際にどのように機能するかについてのグラウンド トゥルース情報がないため、そのようなツールは本質的に評価が困難です。
この作業では、解釈可能性研究のテストベッドとして手動で変圧器モデルを構築することを提案します。
人間が読めるプログラムを変換モデルの重みに変換するための「コンパイラ」である Tracr を紹介します。
Tracr は、ドメイン固有言語 (Weiss et al. 2021) である RASP で記述されたコードを取得し、それを標準のデコーダーのみの GPT のような変換アーキテクチャの重みに変換します。
Tracr を使用して、トークン頻度の計算、並べ替え、Dyck-n 括弧チェックなどのプログラムを実装するさまざまなグラウンド トゥルース トランスフォーマーを作成します。
より広範な研究コミュニティがコンパイルされたモデルを探索して使用できるようにするために、https://github.com/deepmind/tracr で Tracr のオープンソース実装を提供しています。

要約(オリジナル)

Interpretability research aims to build tools for understanding machine learning (ML) models. However, such tools are inherently hard to evaluate because we do not have ground truth information about how ML models actually work. In this work, we propose to build transformer models manually as a testbed for interpretability research. We introduce Tracr, a ‘compiler’ for translating human-readable programs into weights of a transformer model. Tracr takes code written in RASP, a domain-specific language (Weiss et al. 2021), and translates it into weights for a standard, decoder-only, GPT-like transformer architecture. We use Tracr to create a range of ground truth transformers that implement programs including computing token frequencies, sorting, and Dyck-n parenthesis checking, among others. To enable the broader research community to explore and use compiled models, we provide an open-source implementation of Tracr at https://github.com/deepmind/tracr.

arxiv情報

著者 David Lindner,János Kramár,Matthew Rahtz,Thomas McGrath,Vladimir Mikulik
発行日 2023-02-22 14:53:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク