Learning to Abstain From Uninformative Data

要約

金融やヘルスケアなど、自然にノイズ対信号の比率が高い領域での学習と意思決定は、多くの場合困難を伴いますが、リスクは非常に高くなります。
この論文では、一般的なノイズの多い生成プロセスの下での学習と行動の問題を研究します。
この問題では、データ分布には、ラベル内に高いノイズを持つ有益でないサンプルがかなりの割合で含まれていますが、データの一部には、低いラベル ノイズで表される有用な情報が含まれています。
この二分法はトレーニングと推論の両方に存在するため、トレーニングとテストの両方で有益でないデータを適切に処理する必要があります。
私たちは、選択学習理論にヒントを得た、損失を介したこれらの条件下での学習への新しいアプローチを提案します。
この損失を最小限に抑えることで、モデルは有益なデータと非有益なデータを区別して予測を行うことで、最適に近い意思決定を行うことが保証されます。
私たちは、予測子とセレクターの両方を共同で最適化し、さまざまな設定での経験的パフォーマンスを評価する反復アルゴリズムを記述することで、理論的保証の強度を高めます。

要約(オリジナル)

Learning and decision-making in domains with naturally high noise-to-signal ratio, such as Finance or Healthcare, is often challenging, while the stakes are very high. In this paper, we study the problem of learning and acting under a general noisy generative process. In this problem, the data distribution has a significant proportion of uninformative samples with high noise in the label, while part of the data contains useful information represented by low label noise. This dichotomy is present during both training and inference, which requires the proper handling of uninformative data during both training and testing. We propose a novel approach to learning under these conditions via a loss inspired by the selective learning theory. By minimizing this loss, the model is guaranteed to make a near-optimal decision by distinguishing informative data from uninformative data and making predictions. We build upon the strength of our theoretical guarantees by describing an iterative algorithm, which jointly optimizes both a predictor and a selector, and evaluates its empirical performance in a variety of settings.

arxiv情報

著者 Yikai Zhang,Songzhu Zheng,Mina Dalirrooyfard,Pengxiang Wu,Anderson Schneider,Anant Raj,Yuriy Nevmyvaka,Chao Chen
発行日 2023-09-25 15:55:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク