Feature Interactions Reveal Linguistic Structure in Language Models

要約

私たちは、事後解釈可能性のための特徴帰属手法のコンテキストで特徴相互作用を研究します。
解釈可能性の研究では、機能の相互作用を理解することが重要な課題としてますます認識されています。これは、機能の相互作用がニューラル ネットワークの成功の鍵であるためです。
特徴の相互作用により、モデルは入力の階層表現を構築できるようになり、言語モデルの言語構造を調査するための理想的な出発点となる可能性があります。
しかし、これらの相互作用が果たす正確な役割を明らかにすることも難しく、さまざまな相互作用帰属手法が提案されています。
この論文では、これらの方法のうちどれがターゲット モデルの内部動作を最も忠実に反映しているかという問題に焦点を当てます。
私たちは、PCFG を使用して形式言語分類タスクでモデルを完璧にトレーニングするグレー ボックス方法論を考案します。
特定の構成の下では、いくつかのメソッドがモデルによって取得された文法規則を実際に明らかにできることを示します。
これらの発見に基づいて、我々は評価を言語モデルのケーススタディに拡張し、これらのモデルが獲得した言語構造についての新たな洞察を提供します。

要約(オリジナル)

We study feature interactions in the context of feature attribution methods for post-hoc interpretability. In interpretability research, getting to grips with feature interactions is increasingly recognised as an important challenge, because interacting features are key to the success of neural networks. Feature interactions allow a model to build up hierarchical representations for its input, and might provide an ideal starting point for the investigation into linguistic structure in language models. However, uncovering the exact role that these interactions play is also difficult, and a diverse range of interaction attribution methods has been proposed. In this paper, we focus on the question which of these methods most faithfully reflects the inner workings of the target models. We work out a grey box methodology, in which we train models to perfection on a formal language classification task, using PCFGs. We show that under specific configurations, some methods are indeed able to uncover the grammatical rules acquired by a model. Based on these findings we extend our evaluation to a case study on language models, providing novel insights into the linguistic structure that these models have acquired.

arxiv情報

著者 Jaap Jumelet,Willem Zuidema
発行日 2023-06-21 11:24:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク