Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla


これに対処するために、回路解析の拡張性をテストすることを目的として、70B チンチラ モデルでの回路解析のケース スタディを紹介します。
特に、多肢選択式の質問応答を研究し、正解 \emph{text} の知識を前提として、正解 \emph{label} を特定するチンチラの能力を調査します。
ロジット アトリビューション、アテンション パターンの視覚化、およびアクティベーション パッチの既存の手法が自然にチンチラに対応し、小さなセットの「出力ノード」(アテンション ヘッドと MLP) を特定して分類できることがわかりました。
通常の多肢選択式質問の回答では、多肢選択式質問の回答ラベルを操作するときに、パフォーマンスを損なうことなく、ヘッドのクエリ、キー、および値のサブスペースを大幅に圧縮し、クエリとキーのサブスペースが「N 番目」を表すことを示します。


\emph{Circuit analysis} is a promising technique for understanding the internal mechanisms of language models. However, existing analyses are done in small models far from the state of the art. To address this, we present a case study of circuit analysis in the 70B Chinchilla model, aiming to test the scalability of circuit analysis. In particular, we study multiple-choice question answering, and investigate Chinchilla’s capability to identify the correct answer \emph{label} given knowledge of the correct answer \emph{text}. We find that the existing techniques of logit attribution, attention pattern visualization, and activation patching naturally scale to Chinchilla, allowing us to identify and categorize a small set of `output nodes’ (attention heads and MLPs). We further study the `correct letter’ category of attention heads aiming to understand the semantics of their features, with mixed results. For normal multiple-choice question answers, we significantly compress the query, key and value subspaces of the head without loss of performance when operating on the answer labels for multiple-choice questions, and we show that the query and key subspaces represent an `Nth item in an enumeration’ feature to at least some extent. However, when we attempt to use this explanation to understand the heads’ behaviour on a more general distribution including randomized answer labels, we find that it is only a partial explanation, suggesting there is more to learn about the operation of `correct letter’ heads on multiple choice question answering.


著者 Tom Lieberum,Matthew Rahtz,János Kramár,Neel Nanda,Geoffrey Irving,Rohin Shah,Vladimir Mikulik
発行日 2023-07-19 09:22:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.LG パーマリンク