Local vs distributed representations: What is the right basis for interpretability?

要約

ディープ ニューラル ネットワークの解釈可能性に関する研究の多くは、個々のニューロンを最大限に活性化する視覚的特徴の研究に焦点を当ててきました。
しかし、最近の研究では、個々のニューロンが複数の無関係な視覚パターン、つまり「重ね合わせ」と呼ばれる現象に反応する傾向があるため、ディープ ニューラル ネットワークの動作を理解するためのこのような局所表現の有用性に疑問が投げかけられています。
これらの複雑なパターンを解きほぐすための有望な代替案は、ネットワーク層全体からまばらに分散したベクトル表現を学習することです。これは、結果として得られる基底ベクトルが単一の識別可能な視覚パターンを一貫してエンコードしているように見えるためです。
したがって、結果として得られるコードが人間の知覚可能な視覚パターンとよりよく一致すると期待されるかもしれませんが、それを裏付ける証拠はせいぜい逸話にとどまります。
このギャップを埋めるために、560 人の参加者から集めた 3 つの大規模な精神物理学実験を実施しました。
私たちの発見は、(i) スパース分散表現から得られる特徴は人間の観察者によって解釈しやすいという強力な証拠、および (ii) この効果はニューラル ネットワークの最も深い層でより顕著であるという強力な証拠を提供します。
補足的な分析により、(iii) スパース分散表現から得られる特徴がモデルの決定により大きく寄与することも明らかになります。
全体として、私たちの結果は、分散表現が解釈可能性の優れた基盤を構成することを強調しており、この分野が局所的なニューラルコードの解釈を超えて、まばらに分散されたニューラルコードを支持する必要性を強調しています。

要約(オリジナル)

Much of the research on the interpretability of deep neural networks has focused on studying the visual features that maximally activate individual neurons. However, recent work has cast doubts on the usefulness of such local representations for understanding the behavior of deep neural networks because individual neurons tend to respond to multiple unrelated visual patterns, a phenomenon referred to as ‘superposition’. A promising alternative to disentangle these complex patterns is learning sparsely distributed vector representations from entire network layers, as the resulting basis vectors seemingly encode single identifiable visual patterns consistently. Thus, one would expect the resulting code to align better with human perceivable visual patterns, but supporting evidence remains, at best, anecdotal. To fill this gap, we conducted three large-scale psychophysics experiments collected from a pool of 560 participants. Our findings provide (i) strong evidence that features obtained from sparse distributed representations are easier to interpret by human observers and (ii) that this effect is more pronounced in the deepest layers of a neural network. Complementary analyses also reveal that (iii) features derived from sparse distributed representations contribute more to the model’s decision. Overall, our results highlight that distributed representations constitute a superior basis for interpretability, underscoring a need for the field to move beyond the interpretation of local neural codes in favor of sparsely distributed ones.

arxiv情報

著者 Julien Colin,Lore Goetschalckx,Thomas Fel,Victor Boutin,Jay Gopal,Thomas Serre,Nuria Oliver
発行日 2024-11-06 15:34:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク