Understanding Language Model Circuits through Knowledge Editing

要約

言語モデルの解釈可能性の最近の進歩により、モデルの動作を再現する回路、つまり重要なサブネットワークが特定されましたが、これらの重要なサブネットワーク内で知識がどのように構造化されているかは依然として不透明です。
回路の知識を理解するために、GPT-2言語モデルの回路について体系的な知識編集実験を行います。
私たちの分析により、回路が編集の試みにどのように反応するか、ネットワークコンポーネント全体にわたる知識の分布の範囲、および知識を保持する回路のアーキテクチャ構成に関する興味深いパターンが明らかになりました。
これらの発見は、モデル回路と知識表現の間の複雑な関係についての洞察を提供し、言語モデル内で情報がどのように編成されるかについての理解を深めます。
私たちの発見は、回路の「意味」についての新たな洞察を提供し、言語モデルのさらなる解釈可能性と安全性研究の方向性を紹介します。

要約(オリジナル)

Recent advances in language model interpretability have identified circuits, critical subnetworks that replicate model behaviors, yet how knowledge is structured within these crucial subnetworks remains opaque. To gain an understanding toward the knowledge in the circuits, we conduct systematic knowledge editing experiments on the circuits of the GPT-2 language model. Our analysis reveals intriguing patterns in how circuits respond to editing attempts, the extent of knowledge distribution across network components, and the architectural composition of knowledge-bearing circuits. These findings offer insights into the complex relationship between model circuits and knowledge representation, deepening the understanding of how information is organized within language models. Our findings offer novel insights into the “meanings” of the circuits, and introduce directions for further interpretability and safety research of language models.

arxiv情報

著者 Huaizhi Ge,Frank Rudzicz,Zining Zhu
発行日 2024-12-16 18:54:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク