Characterizing and Measuring Linguistic Dataset Drift

要約

現実世界のデータ分布がトレーニング データと著しく異なる場合、NLP モデルのパフォーマンスが低下することがよくあります。
ただし、NLP の既存のデータセット ドリフト メトリクスは、通常、モデルのパフォーマンスに影響を与える言語ドリフトの特定の次元を考慮しておらず、そのようなメトリクスが実際によく使用される個々のサンプル レベルでモデルのパフォーマンスを予測する能力については検証されていません。
この論文では、言語データセットのドリフトの 3 つの側面、つまり語彙、構造、および意味のドリフトを提案します。
これらの次元は、内容単語の頻度の相違、構文の相違、および単語の頻度によって捉えられない意味の変化 (語彙の意味の変化など) に対応します。
私たちは、3 つのドリフト ディメンションすべてに対して解釈可能なメトリクスを提案し、過去のパフォーマンス予測手法を修正して、英語感情分類と自然言語推論のサンプル レベルとデータセット レベルの両方でモデルのパフォーマンスを予測します。
特に一般的な微調整された埋め込み距離 (平均 47.7% の誤差減少) と比較した場合、ドリフト メトリクスは、ドメイン外モデルの精度を予測する際に以前のメトリクスよりも効果的であることがわかりました (平均 16.8% 二乗平均平方根誤差の減少)。
微調整された埋め込み距離は、期待されるパフォーマンスに基づいて個々の例をランク付けする場合にはるかに効果的ですが、語彙、構造、およびセマンティック ドリフトに分解すると、考慮されるすべてのモデルに依存しないドリフト メトリクスの最良の例ランキングが生成されます (平均 6.7% ROC AUC 増加)。

要約(オリジナル)

NLP models often degrade in performance when real world data distributions differ markedly from training data. However, existing dataset drift metrics in NLP have generally not considered specific dimensions of linguistic drift that affect model performance, and they have not been validated in their ability to predict model performance at the individual example level, where such metrics are often used in practice. In this paper, we propose three dimensions of linguistic dataset drift: vocabulary, structural, and semantic drift. These dimensions correspond to content word frequency divergences, syntactic divergences, and meaning changes not captured by word frequencies (e.g. lexical semantic change). We propose interpretable metrics for all three drift dimensions, and we modify past performance prediction methods to predict model performance at both the example and dataset level for English sentiment classification and natural language inference. We find that our drift metrics are more effective than previous metrics at predicting out-of-domain model accuracies (mean 16.8% root mean square error decrease), particularly when compared to popular fine-tuned embedding distances (mean 47.7% error decrease). Fine-tuned embedding distances are much more effective at ranking individual examples by expected performance, but decomposing into vocabulary, structural, and semantic drift produces the best example rankings of all considered model-agnostic drift metrics (mean 6.7% ROC AUC increase).

arxiv情報

著者 Tyler A. Chang,Kishaloy Halder,Neha Anna John,Yogarshi Vyas,Yassine Benajiba,Miguel Ballesteros,Dan Roth
発行日 2023-05-26 17:50:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク