Interpreting Shared Circuits for Ordered Sequence Prediction in a Large Language Model

要約

トランスフォーマー モデルは言語タスクに対して強力な機能を発揮しますが、その複雑なアーキテクチャにより解釈が困難になります。
最近の研究は、変圧器モデルをリバース エンジニアリングして、アルゴリズム機能を実装する回路と呼ばれる人間が判読できる表現に変換することを目的としています。
私たちは、数字、数字の単語、月の増加シーケンスを含む、同様のシーケンス継続タスクの回路を分析および比較することによってこの研究を拡張します。
回路解析技術を応用することで、シーケンス メンバーの検出とシーケンス内の次のメンバーの予測を担当する主要なサブ回路を特定します。
私たちの分析により、意味的に関連するシーケンスは、類似した役割を持つ共有回路サブグラフに依存していることが明らかになりました。
全体として、共有計算構造を文書化することで、モデルの動作のより適切な予測、エラーの特定、およびより安全な編集手順が可能になります。
トランスフォーマーのこのメカニズムの理解は、より堅牢で調整された、解釈可能な言語モデルを構築するための重要なステップです。

要約(オリジナル)

While transformer models exhibit strong capabilities on linguistic tasks, their complex architectures make them difficult to interpret. Recent work has aimed to reverse engineer transformer models into human-readable representations called circuits that implement algorithmic functions. We extend this research by analyzing and comparing circuits for similar sequence continuation tasks, which include increasing sequences of digits, number words, and months. Through the application of circuit analysis techniques, we identify key sub-circuits responsible for detecting sequence members and for predicting the next member in a sequence. Our analysis reveals that semantically related sequences rely on shared circuit subgraphs with analogous roles. Overall, documenting shared computational structures enables better prediction of model behaviors, identification of errors, and safer editing procedures. This mechanistic understanding of transformers is a critical step towards building more robust, aligned, and interpretable language models.

arxiv情報

著者 Michael Lan,Fazl Barez
発行日 2024-02-22 17:07:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク