Neuron to Graph: Interpreting Language Model Neurons at Scale

要約

大規模言語モデル (LLM) の進歩により、顕著な機能が実現しましたが、その内部メカニズムはほとんど知られていないままです。
これらのモデルを理解するには、個々のニューロンの機能とネットワークへのその寄与を解明する必要があります。
この論文では、LLM 内の膨大な数のニューロンにわたって解釈可能技術を拡張し、解釈可能性を高め、最終的に安全にするように設計された新しい自動化アプローチを紹介します。
従来の方法では、ニューロンが反応する概念を解読するには、強いニューロン活性化を伴う例を調べ、手動でパターンを特定する必要がありました。
私たちは、トレーニングされたデータセットからニューロンの動作を自動的に抽出し、解釈可能なグラフに変換する革新的なツールである Neuron to Graph (N2G) を提案します。
N2G は、切り捨ておよび顕著性の手法を使用して、ニューロンに最も適切なトークンのみを強調すると同時に、多様なサンプルでデータセットの例を強化して、ニューロンの動作の全範囲をより適切に網羅します。
これらのグラフは、研究者の手動解釈を支援するために視覚化することができ、ニューロンのグラウンド トゥルースの活性化と比較することで自動検証するためにテキスト上でトークンの活性化を生成することができます。これを使用して、モデルが 2 つのベースライン手法よりもニューロンの活性化の予測に優れていることを示します。
また、特定の特性を持つニューロンを検索したり、プログラムでニューロンを相互に比較して類似のニューロンを特定したりすることで、生成されたグラフ表現を柔軟に使用して、解釈可能性研究のさらなる自動化を容易にする方法も示します。
私たちの方法は、単一の Tesla T4 GPU を使用して 6 層の Transformer モデル内のすべてのニューロンのグラフ表現を構築するように簡単に拡張できるため、幅広い使いやすさが可能になります。
コードと使用手順は https://github.com/alexjfoote/Neuron2Graph で公開しています。

要約(オリジナル)

Advances in Large Language Models (LLMs) have led to remarkable capabilities, yet their inner mechanisms remain largely unknown. To understand these models, we need to unravel the functions of individual neurons and their contribution to the network. This paper introduces a novel automated approach designed to scale interpretability techniques across a vast array of neurons within LLMs, to make them more interpretable and ultimately safe. Conventional methods require examination of examples with strong neuron activation and manual identification of patterns to decipher the concepts a neuron responds to. We propose Neuron to Graph (N2G), an innovative tool that automatically extracts a neuron’s behaviour from the dataset it was trained on and translates it into an interpretable graph. N2G uses truncation and saliency methods to emphasise only the most pertinent tokens to a neuron while enriching dataset examples with diverse samples to better encompass the full spectrum of neuron behaviour. These graphs can be visualised to aid researchers’ manual interpretation, and can generate token activations on text for automatic validation by comparison with the neuron’s ground truth activations, which we use to show that the model is better at predicting neuron activation than two baseline methods. We also demonstrate how the generated graph representations can be flexibly used to facilitate further automation of interpretability research, by searching for neurons with particular properties, or programmatically comparing neurons to each other to identify similar neurons. Our method easily scales to build graph representations for all neurons in a 6-layer Transformer model using a single Tesla T4 GPU, allowing for wide usability. We release the code and instructions for use at https://github.com/alexjfoote/Neuron2Graph.

arxiv情報

著者 Alex Foote,Neel Nanda,Esben Kran,Ioannis Konstas,Shay Cohen,Fazl Barez
発行日 2023-05-31 14:44:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク