The Power of Iterative Filtering for Supervised Learning with (Heavy) Contamination

要約

分布シフトを使用した学習に関する最近の研究に触発されて、繰り返し多項式フィルタリングと呼ばれる一般的な外れ値除去アルゴリズムを提供し、汚染を伴う監視された学習のための多くのストライキアプリケーションを示します。
これは、不可知論の学習の複雑さと汚染による学習の間の長年のギャップに対する驚くべき解決策です。これは、低い級近似が標識騒音に対する耐性のみを暗示するだけであると広く信じられていたためです。
(2)サンドイッチ近似の(より強力な)概念を認める関数クラスについては、トレーニングセットの$ 1/2 $をはるかに超える重い添加剤汚染に関しても、最適に近い学習保証を取得します。
以前の関連する作業は、回帰およびリストデコード可能な設定のみで開催されました。
(3)固定されたログコンケーブ分布に関するハーフスペースの機能の耐性テスト可能な学習のための最初の効率的なアルゴリズムを取得します。
この設定の単一のハーフスペースの非耐性ケースでさえ、開いたままでした。
これらの結果は、汚染の下での効率的な監督された学習の理解を大幅に向上させます。これは、監視されていないカウンターパートよりもはるかに研究されていない設定です。

要約(オリジナル)

Inspired by recent work on learning with distribution shift, we give a general outlier removal algorithm called iterative polynomial filtering and show a number of striking applications for supervised learning with contamination: (1) We show that any function class that can be approximated by low-degree polynomials with respect to a hypercontractive distribution can be efficiently learned under bounded contamination (also known as nasty noise). This is a surprising resolution to a longstanding gap between the complexity of agnostic learning and learning with contamination, as it was widely believed that low-degree approximators only implied tolerance to label noise. (2) For any function class that admits the (stronger) notion of sandwiching approximators, we obtain near-optimal learning guarantees even with respect to heavy additive contamination, where far more than $1/2$ of the training set may be added adversarially. Prior related work held only for regression and in a list-decodable setting. (3) We obtain the first efficient algorithms for tolerant testable learning of functions of halfspaces with respect to any fixed log-concave distribution. Even the non-tolerant case for a single halfspace in this setting had remained open. These results significantly advance our understanding of efficient supervised learning under contamination, a setting that has been much less studied than its unsupervised counterpart.

arxiv情報

著者 Adam R. Klivans,Konstantinos Stavropoulos,Kevin Tian,Arsen Vasilyan
発行日 2025-05-26 16:17:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, stat.ML パーマリンク