Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla

要約

\emph{回路解析}は、言語モデルの内部メカニズムを理解するための有望な手法です。
しかし、既存の分析は最先端とは程遠い小規模なモデルで行われています。
これに対処するために、回路解析の拡張性をテストすることを目的として、70B チンチラ モデルでの回路解析のケース スタディを紹介します。
特に、多肢選択式の質問応答を研究し、正解 \emph{text} の知識を前提として、正解 \emph{label} を特定するチンチラの能力を調査します。
ロジット アトリビューション、アテンション パターンの視覚化、およびアクティベーション パッチの既存の手法が自然にチンチラに対応し、小さなセットの「出力ノード」(アテンション ヘッドと MLP) を特定して分類できることがわかりました。
私たちは、その特徴の意味論を理解することを目的として、注意頭の「正しい文字」カテゴリをさらに研究しましたが、結果はまちまちでした。
通常の多肢選択式質問の回答では、多肢選択式質問の回答ラベルを操作するときに、パフォーマンスを損なうことなく、ヘッドのクエリ、キー、および値のサブスペースを大幅に圧縮し、クエリとキーのサブスペースが「N 番目」を表すことを示します。
少なくともある程度の「列挙内の項目」機能。
しかし、ランダム化された回答ラベルを含む、より一般的な分布における表の動作を理解するためにこの説明を使用しようとすると、それが部分的な説明にすぎないことがわかり、「正しい文字」の表の動作についてさらに学ぶべきことがあることが示唆されます。
多肢選択式の質問への回答について。

要約(オリジナル)

\emph{Circuit analysis} is a promising technique for understanding the internal mechanisms of language models. However, existing analyses are done in small models far from the state of the art. To address this, we present a case study of circuit analysis in the 70B Chinchilla model, aiming to test the scalability of circuit analysis. In particular, we study multiple-choice question answering, and investigate Chinchilla’s capability to identify the correct answer \emph{label} given knowledge of the correct answer \emph{text}. We find that the existing techniques of logit attribution, attention pattern visualization, and activation patching naturally scale to Chinchilla, allowing us to identify and categorize a small set of `output nodes’ (attention heads and MLPs). We further study the `correct letter’ category of attention heads aiming to understand the semantics of their features, with mixed results. For normal multiple-choice question answers, we significantly compress the query, key and value subspaces of the head without loss of performance when operating on the answer labels for multiple-choice questions, and we show that the query and key subspaces represent an `Nth item in an enumeration’ feature to at least some extent. However, when we attempt to use this explanation to understand the heads’ behaviour on a more general distribution including randomized answer labels, we find that it is only a partial explanation, suggesting there is more to learn about the operation of `correct letter’ heads on multiple choice question answering.

arxiv情報

著者 Tom Lieberum,Matthew Rahtz,János Kramár,Neel Nanda,Geoffrey Irving,Rohin Shah,Vladimir Mikulik
発行日 2023-07-19 09:22:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク