Probing for the Usage of Grammatical Number

要約

調査の中心的な探求は、事前トレーニングされたモデルが表現内の言語特性をどのようにエンコードしているかを明らかにすることです。
ただし、エンコーディングは偽である可能性があります。つまり、モデルが予測を行うときにエンコーディングに依存していない可能性があります。
このペーパーでは、使用法ベースのプローブ設定を導入して、モデルが実際に使用するエンコーディングを見つけようとします。
まず、言語特性を使用しないと解決できない行動タスクを選択します。
次に、モデルの表現に介入してプロパティを削除しようとします。
エンコーディングがモデルで使用されている場合、そのエンコーディングを削除すると、選択された動作タスクのパフォーマンスが損なわれるはずであると私たちは主張します。
ケーススタディとして、BERT が文法的数値をエンコードする方法と、このエンコードを使用して数一致タスクを解決する方法に焦点を当てます。
実験的に、BERT は文法数値の線形エンコーディングに依存して正しい動作出力を生成することがわかりました。
また、BERT は名詞と動詞に別個の文法番号のエンコーディングを使用していることもわかりました。
最後に、文法番号に関する情報が名詞からその主要動詞にどの層で転送されるかを特定します。

要約(オリジナル)

A central quest of probing is to uncover how pre-trained models encode a linguistic property within their representations. An encoding, however, might be spurious-i.e., the model might not rely on it when making predictions. In this paper, we try to find encodings that the model actually uses, introducing a usage-based probing setup. We first choose a behavioral task which cannot be solved without using the linguistic property. Then, we attempt to remove the property by intervening on the model’s representations. We contend that, if an encoding is used by the model, its removal should harm the performance on the chosen behavioral task. As a case study, we focus on how BERT encodes grammatical number, and on how it uses this encoding to solve the number agreement task. Experimentally, we find that BERT relies on a linear encoding of grammatical number to produce the correct behavioral output. We also find that BERT uses a separate encoding of grammatical number for nouns and verbs. Finally, we identify in which layers information about grammatical number is transferred from a noun to its head verb.

arxiv情報

著者 Karim Lasri,Tiago Pimentel,Alessandro Lenci,Thierry Poibeau,Ryan Cotterell
発行日 2023-07-31 09:19:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク