Measuring Causal Effects of Data Statistics on Language Model’s `Factual’ Predictions

要約

大量のトレーニング データは、最先端の NLP モデルのパフォーマンスが高い主な理由の 1 つです。
しかし、トレーニング データの何が原因で、モデルが特定の予測を行うのでしょうか?
トレーニング データが予測にどのように影響するかを因果関係のフレームワークを通じて説明する言語を提供することで、この質問に答えようとしています。
重要なことは、私たちのフレームワークは高価なモデルを再トレーニングする必要性を回避し、観測データのみに基づいて因果関係を推定できるようにすることです。
事前トレーニング済み言語モデル (PLM) から事実に関する知識を抽出する問題に対処するために、共起数などの単純なデータ統計に焦点を当て、これらの統計が PLM の予測に影響を与えることを示し、そのようなモデルが浅いヒューリスティックに依存していることを示唆しています。
私たちの因果フレームワークと結果は、データセットを研究することの重要性と、NLP モデルを理解するための因果関係の利点を示しています。

要約(オリジナル)

Large amounts of training data are one of the major reasons for the high performance of state-of-the-art NLP models. But what exactly in the training data causes a model to make a certain prediction? We seek to answer this question by providing a language for describing how training data influences predictions, through a causal framework. Importantly, our framework bypasses the need to retrain expensive models and allows us to estimate causal effects based on observational data alone. Addressing the problem of extracting factual knowledge from pretrained language models (PLMs), we focus on simple data statistics such as co-occurrence counts and show that these statistics do influence the predictions of PLMs, suggesting that such models rely on shallow heuristics. Our causal framework and our results demonstrate the importance of studying datasets and the benefits of causality for understanding NLP models.

arxiv情報

著者 Yanai Elazar,Nora Kassner,Shauli Ravfogel,Amir Feder,Abhilasha Ravichander,Marius Mosbach,Yonatan Belinkov,Hinrich Schütze,Yoav Goldberg
発行日 2023-03-24 07:18:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク