Probing structural constraints of negation in Pretrained Language Models

要約

事前トレーニング済み言語モデル (PLM) における否定の意味論的影響のエンコードに関する矛盾した結果。
最近描かれたものもあります(例:Kassner and Schitze (2020); Gubelmann and Handschuh (2022))。
このペーパーでは、PLM が否定をエンコードする方法と、英語の Negative Polarity Items (NPI) ライセンスの現象を通じて、その正式な影響に焦点を当てます。
より正確には、プローブを使用して、1) 文内の否定の存在、2) 隣接するマスクされた極性項目の極性を最もよくエンコードする文脈表現を特定します。
否定スコープ内のトークンのコンテキスト表現により、(i) スコープ外のトークンと比較して not の存在をより正確に予測でき、(ii) not によってライセンスされたマスクされた極性項目の正しい極性をより正確に予測できることがわかります。
ただし、違いの大きさは PLM ごとに異なります。
重要なのは、どちらの場合も、距離を制御しない場合でも傾向が維持されることです。
これは、これらのモデルの埋め込みが否定範囲の概念を反映しており、NPI ライセンスに対する否定の影響を符号化していることを示す傾向があります。
しかし、さらなる制御実験により、他の語彙項目の存在も、トークンの文脈表現を同じ構文節の外側で使用する場合よりも使用する場合にうまく捕捉されることが明らかになり、PLM が単に構文節のより一般的な概念を捕捉しているだけであることが示唆されています。

要約(オリジナル)

Contradictory results about the encoding of the semantic impact of negation in pretrained language models (PLMs). have been drawn recently (e.g. Kassner and Sch{\’u}tze (2020); Gubelmann and Handschuh (2022)). In this paper we focus rather on the way PLMs encode negation and its formal impact, through the phenomenon of the Negative Polarity Item (NPI) licensing in English. More precisely, we use probes to identify which contextual representations best encode 1) the presence of negation in a sentence, and 2) the polarity of a neighboring masked polarity item. We find that contextual representations of tokens inside the negation scope do allow for (i) a better prediction of the presence of not compared to those outside the scope and (ii) a better prediction of the right polarity of a masked polarity item licensed by not, although the magnitude of the difference varies from PLM to PLM. Importantly, in both cases the trend holds even when controlling for distance to not. This tends to indicate that the embeddings of these models do reflect the notion of negation scope, and do encode the impact of negation on NPI licensing. Yet, further control experiments reveal that the presence of other lexical items is also better captured when using the contextual representation of a token within the same syntactic clause than outside from it, suggesting that PLMs simply capture the more general notion of syntactic clause.

arxiv情報

著者 David Kletz,Marie Candito,Pascal Amsili
発行日 2024-08-06 09:54:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク