Investigating the Encoding of Words in BERT’s Neurons using Feature Textualization

要約

事前トレーニング済み言語モデル (PLM) は、ほとんどの最先端の NLP テクノロジーの基礎を形成します。
それにもかかわらず、これらは本質的にブラック ボックスです。人間は、モデルのさまざまな部分、特に個々のニューロンにどのような知識がエンコードされているかを明確に理解していません。
コンピューター ビジョンでは状況が異なります。コンピューター ビジョンでは、特徴の視覚化により、ビジョン モデルのニューロンに分解解釈可能技術が提供されます。
活性化の最大化は、個々のニューロンにエンコードされた情報の本質的に解釈可能な視覚表現を合成するために使用されます。
私たちの研究はこれに触発されていますが、活性化の最大化を NLP、より具体的には大規模 PLM に適応させる最初の大規模な試みに基づいて、単一ニューロンの解釈可能性に関する警告的な物語を提示しています。
我々は、PLM 単語埋め込み空間でニューロンの高密度表現を生成する手法である特徴テキスト化を提案します。
特徴のテキスト化を BERT モデル (Devlin et al., 2019) に適用して、個々のニューロンにエンコードされた知識を解釈して記号化できるかどうかを調査します。
私たちは、生成された表現は個々のニューロンにエンコードされた知識についての洞察を提供できるが、個々のニューロンは単語などの言語の明確な記号単位を表していないことを発見しました。
さらに、特徴のテキスト化を使用して、BERT で単語をエンコードするために必要なニューロンの数を調査します。

要約(オリジナル)

Pretrained language models (PLMs) form the basis of most state-of-the-art NLP technologies. Nevertheless, they are essentially black boxes: Humans do not have a clear understanding of what knowledge is encoded in different parts of the models, especially in individual neurons. The situation is different in computer vision, where feature visualization provides a decompositional interpretability technique for neurons of vision models. Activation maximization is used to synthesize inherently interpretable visual representations of the information encoded in individual neurons. Our work is inspired by this but presents a cautionary tale on the interpretability of single neurons, based on the first large-scale attempt to adapt activation maximization to NLP, and, more specifically, large PLMs. We propose feature textualization, a technique to produce dense representations of neurons in the PLM word embedding space. We apply feature textualization to the BERT model (Devlin et al., 2019) to investigate whether the knowledge encoded in individual neurons can be interpreted and symbolized. We find that the produced representations can provide insights about the knowledge encoded in individual neurons, but that individual neurons do not represent clearcut symbolic units of language such as words. Additionally, we use feature textualization to investigate how many neurons are needed to encode words in BERT.

arxiv情報

著者 Tanja Baeumel,Soniya Vijayakumar,Josef van Genabith,Guenter Neumann,Simon Ostermann
発行日 2023-11-14 15:21:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク