Can BERT eat RuCoLA? Topological Data Analysis to Explain

要約

タイトル:BERTはRuCoLAを処理できるか?トポロジカルデータ分析による解明

要約:
– 本論文では、受容性分類に特化したTransformer言語モデル(LMs)が言語的特徴をどのように捉えるかについて調査している。
– この研究では、自然言語処理におけるトポロジカルデータ分析(TDA)のベストプラクティスを用いて、アテンション行列から有向グラフを構築し、トポロジカル特徴を導出し、線形分類器に組み込む手法を提案している。
– 新しい特徴として、コーダリティとマッチング数を導入し、TDAベースの分類器がファインチューニングのベースラインよりも優れていることを示している。
– 英語とロシア語の2つの異なる言語のCoLAとRuCoLAの2つのデータセットで実験を行い、LMの注意モードの変化を検出するブラックボックス内省技術、LMの予測信頼度を定義するブラックボックス内省技術、個々のヘッドを細かい文法現象に関連付けるブラックボックス内省技術を提示する。
– 今回の研究は、単一言語モデルが受容性分類タスクにおいてどのように振る舞うかを理解することに貢献し、アテンションヘッダーの機能的役割に対する洞察を提供し、トポロジカルデータ分析に基づく手法がLMを分析するための有利性を強調する。また、コードや実験結果を公開することでさらなる研究の展開を促す。

要約(オリジナル)

This paper investigates how Transformer language models (LMs) fine-tuned for acceptability classification capture linguistic features. Our approach uses the best practices of topological data analysis (TDA) in NLP: we construct directed attention graphs from attention matrices, derive topological features from them, and feed them to linear classifiers. We introduce two novel features, chordality, and the matching number, and show that TDA-based classifiers outperform fine-tuning baselines. We experiment with two datasets, CoLA and RuCoLA in English and Russian, typologically different languages. On top of that, we propose several black-box introspection techniques aimed at detecting changes in the attention mode of the LMs during fine-tuning, defining the LM’s prediction confidences, and associating individual heads with fine-grained grammar phenomena. Our results contribute to understanding the behavior of monolingual LMs in the acceptability classification task, provide insights into the functional roles of attention heads, and highlight the advantages of TDA-based approaches for analyzing LMs. We release the code and the experimental results for further uptake.

arxiv情報

著者 Irina Proskurina,Irina Piontkovskaya,Ekaterina Artemova
発行日 2023-04-04 10:11:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク