Estimating the Causal Effects of Natural Logic Features in Transformer-Based NLI Models

要約

言語モデルの予測に対する意味的特徴の因果的効果の厳密な評価は、自然言語推論問題では実現が困難である。しかし、これは解釈可能性とモデル評価の両方の観点から望ましい分析形態であり、広く使用されているモデルにおける系統的な推論の失敗を特定し定量化するのに十分な構造と規則性を持つ推論の特定のパターンを調査することは価値がある。このような観点から、我々は、明示的な因果ダイアグラムを体系的に構築することができるNLIタスクの一部を選ぶ:2つの文(前提および仮説)間で、2つの関連する単語/用語が共有コンテキストで出現する場合である。本研究では、文脈への介入(含意ラベルへの効果は意味的単調性特性によって媒介される)と、挿入された単語対への介入(含意ラベルへの効果はこれらの単語間の関係によって媒介される)の効果を測定するために因果効果推定戦略を適用する。異なる環境におけるNLPモデルの因果分析に関する関連研究を拡張し、NLIタスクに関する広範な介入研究を実施し、無関係な変更に対する頑健性とTransformersのインパクトのある変更に対する感度を調査する。その結果、全く異なる挙動を示すモデルでも、同様のベンチマーク精度スコアが観察される可能性があるという事実を強く裏付けた。さらに、我々の方法論は、上向きの単調な文脈を支持するバイアスや、否定マーカーの効果を無視するバイアスなど、因果関係の観点からこれまで疑われていたバイアスを補強する。

要約(オリジナル)

Rigorous evaluation of the causal effects of semantic features on language model predictions can be hard to achieve for natural language reasoning problems. However, this is such a desirable form of analysis from both an interpretability and model evaluation perspective, that it is valuable to investigate specific patterns of reasoning with enough structure and regularity to identify and quantify systematic reasoning failures in widely-used models. In this vein, we pick a portion of the NLI task for which an explicit causal diagram can be systematically constructed: the case where across two sentences (the premise and hypothesis), two related words/terms occur in a shared context. In this work, we apply causal effect estimation strategies to measure the effect of context interventions (whose effect on the entailment label is mediated by the semantic monotonicity characteristic) and interventions on the inserted word-pair (whose effect on the entailment label is mediated by the relation between these words). Extending related work on causal analysis of NLP models in different settings, we perform an extensive interventional study on the NLI task to investigate robustness to irrelevant changes and sensitivity to impactful changes of Transformers. The results strongly bolster the fact that similar benchmark accuracy scores may be observed for models that exhibit very different behaviour. Moreover, our methodology reinforces previously suspected biases from a causal perspective, including biases in favour of upward-monotone contexts and ignoring the effects of negation markers.

arxiv情報

著者 Julia Rozanova,Marco Valentino,André Freitas
発行日 2024-04-03 10:22:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク