Towards Interpretable Sequence Continuation: Analyzing Shared Circuits in Large Language Models

要約

トランスフォーマー モデルは言語タスクに対して強力な機能を発揮しますが、その複雑なアーキテクチャにより解釈が困難になります。
最近の研究は、変圧器モデルをリバース エンジニアリングして、アルゴリズム機能を実装する回路と呼ばれる人間が判読できる表現に変換することを目的としています。
私たちはこの研究を、アラビア数字、数字、月の増加シーケンスを含む同様のシーケンス継続タスクの回路を分析および比較することによって拡張します。
回路解釈可能性解析を適用することで、GPT-2 Small と Llama-2-7B の両方で、シーケンス メンバーの検出とシーケンス内の次のメンバーの予測を担う重要なサブ回路を特定しました。
私たちの分析により、意味的に関連するシーケンスは、類似した役割を持つ共有回路サブグラフに依存していることが明らかになりました。
さらに、このサブ回路が、間隔回路、スペイン語の数字と月の継続、自然言語の単語問題など、さまざまな数学関連のプロンプトに影響を与えることを示します。
全体として、共有された計算構造を文書化することで、より適切なモデルの動作予測、エラーの特定、およびより安全な編集手順が可能になります。
トランスフォーマーのこのメカニズムの理解は、より堅牢で調整された、解釈可能な言語モデルを構築するための重要なステップです。

要約(オリジナル)

While transformer models exhibit strong capabilities on linguistic tasks, their complex architectures make them difficult to interpret. Recent work has aimed to reverse engineer transformer models into human-readable representations called circuits that implement algorithmic functions. We extend this research by analyzing and comparing circuits for similar sequence continuation tasks, which include increasing sequences of Arabic numerals, number words, and months. By applying circuit interpretability analysis, we identify a key sub-circuit in both GPT-2 Small and Llama-2-7B responsible for detecting sequence members and for predicting the next member in a sequence. Our analysis reveals that semantically related sequences rely on shared circuit subgraphs with analogous roles. Additionally, we show that this sub-circuit has effects on various math-related prompts, such as on intervaled circuits, Spanish number word and months continuation, and natural language word problems. Overall, documenting shared computational structures enables better model behavior predictions, identification of errors, and safer editing procedures. This mechanistic understanding of transformers is a critical step towards building more robust, aligned, and interpretable language models.

arxiv情報

著者 Michael Lan,Philip Torr,Fazl Barez
発行日 2024-07-19 13:57:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク