Interventional Probing in High Dimensions: An NLI Case Study


– プロービング戦略は、大きな言語モデルにおけるさまざまな言語的特徴の存在を検出することが示されている。
– 特に、自然言語推論タスク(NLI)の「自然論理」断片の中間的意味的特徴については、その中間特徴と帰結ラベルとの関係が明示的に知られているため、介入的研究のための豊かな環境を提供している。
– 本研究では、新しいおよび既存の表現レベルの介入を実施し、これらの意味的特徴がNLI分類に及ぼす影響を調査する。
– アムネジックプロービング(学習された線形プローブによって指示された特徴を削除する)を実行し、プローブに選択された次元以外のすべての次元を忘却させるメネスティックプロービング変異を導入する。
– さらに、これらの方法の限界について探求し、介入的プロービング研究の効果的な分析を阻むいくつかの落とし穴を概説する。


Probing strategies have been shown to detect the presence of various linguistic features in large language models; in particular, semantic features intermediate to the ‘natural logic’ fragment of the Natural Language Inference task (NLI). In the case of natural logic, the relation between the intermediate features and the entailment label is explicitly known: as such, this provides a ripe setting for interventional studies on the NLI models’ representations, allowing for stronger causal conjectures and a deeper critical analysis of interventional probing methods. In this work, we carry out new and existing representation-level interventions to investigate the effect of these semantic features on NLI classification: we perform amnesic probing (which removes features as directed by learned linear probes) and introduce the mnestic probing variation (which forgets all dimensions except the probe-selected ones). Furthermore, we delve into the limitations of these methods and outline some pitfalls have been obscuring the effectivity of interventional probing studies.


著者 Julia Rozanova,Marco Valentino,Lucas Cordeiro,Andre Freitas
発行日 2023-04-20 14:34:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CL パーマリンク