An Adaptive Method for Weak Supervision with Drifting Data

要約

我々は、非定常的な設定における弱監視のための形式的な品質保証を持つ適応的な方法を紹介する。我々の目標は、各データポイントの正しい分類の独立したノイズ信号を提供する弱監視ソースを用いて、一連のデータの未知のラベルを推論することである。この設定には、クラウドソーシングやプログラムによる弱監視が含まれる。我々は非定常的なケースに焦点を当て、例えば、基礎となるデータ分布の変化のために、弱い監督源の精度が時間とともにドリフトする可能性がある。ドリフトにより、古いデータは現在のデータポイントのラベルを推論するために誤解を招く情報を提供する可能性がある。これまでの研究では、ドリフトの大きさに関する先験的な仮定に依存して、過去のデータをどの程度使用するかを決定していた。一方、本アルゴリズムは、ドリフトに関する仮定を必要とせず、入力に基づき適応する。特に、各ステップにおいて、我々のアルゴリズムは、推定値の分散による誤差とドリフトによる誤差のトレードオフを最小化する、過去の観測のウィンドウ上での弱い監督源の現在の精度の推定を保証している。合成ラベラーと実世界のラベラーを用いた実験により、我々のアプローチが実際にドリフトに適応することが示された。固定ウィンドウサイズ戦略とは異なり、常に良好な性能を維持することができるウィンドウサイズを動的に選択することができる。

要約(オリジナル)

We introduce an adaptive method with formal quality guarantees for weak supervision in a non-stationary setting. Our goal is to infer the unknown labels of a sequence of data by using weak supervision sources that provide independent noisy signals of the correct classification for each data point. This setting includes crowdsourcing and programmatic weak supervision. We focus on the non-stationary case, where the accuracy of the weak supervision sources can drift over time, e.g., because of changes in the underlying data distribution. Due to the drift, older data could provide misleading information to infer the label of the current data point. Previous work relied on a priori assumptions on the magnitude of the drift to decide how much data to use from the past. Comparatively, our algorithm does not require any assumptions on the drift, and it adapts based on the input. In particular, at each step, our algorithm guarantees an estimation of the current accuracies of the weak supervision sources over a window of past observations that minimizes a trade-off between the error due to the variance of the estimation and the error due to the drift. Experiments on synthetic and real-world labelers show that our approach indeed adapts to the drift. Unlike fixed-window-size strategies, it dynamically chooses a window size that allows it to consistently maintain good performance.

arxiv情報

著者 Alessio Mazzetto,Reza Esfandiarpoor,Eli Upfal,Stephen H. Bach
発行日 2023-06-02 16:27:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク