Disentangling Neuron Representations with Concept Vectors

要約

タイトル:コンセプトベクトルを用いたニューロン表現の切り分け

要約:
– 本研究はニューラルネットワークを解釈可能な単位に分解することで、モデルがどのように表現を保存しているかを理解することを目的としています。
– しかし、複数の無関係な特徴に反応する多義的なニューロンの出現により、個々のニューロンの解釈が困難になっています。
– このため、個々のニューロンではなく、活性化空間にある有意味なベクトル(コンセプトベクトル)の探索が行われています。
– 本論文の主な貢献は、多義的なニューロンを独立した特徴を含むコンセプトベクトルに分解する方法です。
– この方法では、ユーザーが希望するコンセプト分離レベルに応じて、精緻なコンセプトを探索することができます。
– 分析により、多義的なニューロンはニューロンの線形結合から構成される方向に分解できることが示されています。
– 評価により、見つかったコンセプトベクトルが人間が理解できる、一貫した特徴をエンコードしていることが示されています。

要約(オリジナル)

Mechanistic interpretability aims to understand how models store representations by breaking down neural networks into interpretable units. However, the occurrence of polysemantic neurons, or neurons that respond to multiple unrelated features, makes interpreting individual neurons challenging. This has led to the search for meaningful vectors, known as concept vectors, in activation space instead of individual neurons. The main contribution of this paper is a method to disentangle polysemantic neurons into concept vectors encapsulating distinct features. Our method can search for fine-grained concepts according to the user’s desired level of concept separation. The analysis shows that polysemantic neurons can be disentangled into directions consisting of linear combinations of neurons. Our evaluations show that the concept vectors found encode coherent, human-understandable features.

arxiv情報

著者 Laura O’Mahony,Vincent Andrearczyk,Henning Muller,Mara Graziani
発行日 2023-04-19 14:55:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG パーマリンク