Interpretability at Scale: Identifying Causal Mechanisms in Alpaca

要約

大規模な汎用言語モデルについて人間が解釈可能な説明を取得することは、AI の安全性にとって緊急の目標です。
ただし、私たちの解釈可能性メソッドがモデルの動作の基礎となる因果力学に忠実であり、目に見えない入力に対して堅牢に一般化できることも同様に重要です。
分散アライメント検索 (DAS) は、因果抽象化の理論に基づいた強力な勾配降下法であり、解釈可能なシンボリック アルゴリズムと、特定のタスク向けに微調整された小規模な深層学習モデルの間の完全な整合性を明らかにしました。
この論文では、残りのブルートフォース検索ステップを学習したパラメータに置き換えることで、DAS を大幅に拡張します。これを DAS と呼ぶアプローチです。
これにより、大規模な言語モデルが指示に従いながら、解釈可能な因果構造を効率的に検索できるようになります。
DAS を Alpaca モデル (7B パラメーター) に適用すると、既製の単純な数値推論の問題が解決されます。
DAS を使用すると、Alpaca が 2 つの解釈可能なブール変数を使用した因果モデルを実装することによってこれを実行していることがわかりました。
さらに、これらの変数を使用したニューラル表現の調整は、入力や命令の変化に対して堅牢であることがわかりました。
これらの発見は、私たちの最大かつ最も広く展開されている言語モデルの内部動作を深く理解するための第一歩を示しています。

要約(オリジナル)

Obtaining human-interpretable explanations of large, general-purpose language models is an urgent goal for AI safety. However, it is just as important that our interpretability methods are faithful to the causal dynamics underlying model behavior and able to robustly generalize to unseen inputs. Distributed Alignment Search (DAS) is a powerful gradient descent method grounded in a theory of causal abstraction that uncovered perfect alignments between interpretable symbolic algorithms and small deep learning models fine-tuned for specific tasks. In the present paper, we scale DAS significantly by replacing the remaining brute-force search steps with learned parameters — an approach we call DAS. This enables us to efficiently search for interpretable causal structure in large language models while they follow instructions. We apply DAS to the Alpaca model (7B parameters), which, off the shelf, solves a simple numerical reasoning problem. With DAS, we discover that Alpaca does this by implementing a causal model with two interpretable boolean variables. Furthermore, we find that the alignment of neural representations with these variables is robust to changes in inputs and instructions. These findings mark a first step toward deeply understanding the inner-workings of our largest and most widely deployed language models.

arxiv情報

著者 Zhengxuan Wu,Atticus Geiger,Christopher Potts,Noah D. Goodman
発行日 2023-05-15 17:15:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク