Uncovering Drift in Textual Data: An Unsupervised Method for Detecting and Mitigating Drift in Machine Learning Models

要約

機械学習におけるドリフトとは、モデルが動作するデータまたはコンテキストの統計的特性が時間の経過とともに変化し、パフォーマンスの低下につながる現象を指します。
したがって、潜在的なパフォーマンスの低下を事前に防ぐためには、機械学習モデルのパフォーマンスを継続的に監視するプロセスを維持することが重要です。
ただし、教師付きドリフト検出方法では人間による注釈が必要なため、ドリフトの検出と軽減に時間がかかります。
私たちが提案する教師なしドリフト検出方法では、2 段階のプロセスに従います。
最初のステップでは、実稼働データのサンプルをターゲット分布としてエンコードし、モデルのトレーニング データを参照分布としてエンコードします。
2 番目のステップでは、最大平均不一致 (MMD) 距離メトリックを利用するカーネルベースの統計テストを採用して、参照分布とターゲット分布を比較し、潜在的なドリフトを推定します。
私たちの方法では、ドリフトの根本原因である本番データのサブセットも特定します。
これらの特定された高ドリフト サンプルを使用して再トレーニングされたモデルは、オンライン カスタマー エクスペリエンス品質指標のパフォーマンスが向上していることを示しています。

要約(オリジナル)

Drift in machine learning refers to the phenomenon where the statistical properties of data or context, in which the model operates, change over time leading to a decrease in its performance. Therefore, maintaining a constant monitoring process for machine learning model performance is crucial in order to proactively prevent any potential performance regression. However, supervised drift detection methods require human annotation and consequently lead to a longer time to detect and mitigate the drift. In our proposed unsupervised drift detection method, we follow a two step process. Our first step involves encoding a sample of production data as the target distribution, and the model training data as the reference distribution. In the second step, we employ a kernel-based statistical test that utilizes the maximum mean discrepancy (MMD) distance metric to compare the reference and target distributions and estimate any potential drift. Our method also identifies the subset of production data that is the root cause of the drift. The models retrained using these identified high drift samples show improved performance on online customer experience quality metrics.

arxiv情報

著者 Saeed Khaki,Akhouri Abhinav Aditya,Zohar Karnin,Lan Ma,Olivia Pan,Samarth Marudheri Chandrashekar
発行日 2023-09-07 16:45:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク