Robust Mixture Learning when Outliers Overwhelm Small Groups

要約

私たちは、敵対者が任意の外れ値を追加する可能性がある場合に、十分に分離された混合物の平均値を推定する問題を研究します。
外れ値の割合が最小混合重みよりも大幅に小さい場合には強力な保証が利用可能ですが、外れ値が低重みのクラスターを排除する可能性がある場合はあまり知られていません。これをリストデコード可能な混合学習 (LD-ML) と呼ぶ設定です。
この場合、敵対的外れ値は追加の偽混合成分をシミュレートする可能性があります。
したがって、混合のすべての平均を出力リストの小さな誤差まで回復する必要がある場合、リストのサイズは (真の) 成分の数より大きくする必要があります。
最小のリストサイズのオーバーヘッドで各混合平均の次数最適な誤差保証を取得するアルゴリズムを提案し、LD-ML に適用できる唯一の既存の方法であるリスト復号可能な平均推定を大幅に改善します。
混合物が分離されていない場合でも改善が見られますが、私たちのアルゴリズムは、混合物が分離されている場合に特に強力な保証を達成します。混合構造を利用して、サンプルを部分的にクラスタリングしてから、さまざまな場所でリストデコード可能な平均推定のための基本学習器を慎重に繰り返すことができます。
秤。

要約(オリジナル)

We study the problem of estimating the means of well-separated mixtures when an adversary may add arbitrary outliers. While strong guarantees are available when the outlier fraction is significantly smaller than the minimum mixing weight, much less is known when outliers may crowd out low-weight clusters – a setting we refer to as list-decodable mixture learning (LD-ML). In this case, adversarial outliers can simulate additional spurious mixture components. Hence, if all means of the mixture must be recovered up to a small error in the output list, the list size needs to be larger than the number of (true) components. We propose an algorithm that obtains order-optimal error guarantees for each mixture mean with a minimal list-size overhead, significantly improving upon list-decodable mean estimation, the only existing method that is applicable for LD-ML. Although improvements are observed even when the mixture is non-separated, our algorithm achieves particularly strong guarantees when the mixture is separated: it can leverage the mixture structure to partially cluster the samples before carefully iterating a base learner for list-decodable mean estimation at different scales.

arxiv情報

著者 Daniil Dmitriev,Rares-Darius Buhai,Stefan Tiegel,Alexander Wolters,Gleb Novikov,Amartya Sanyal,David Steurer,Fanny Yang
発行日 2024-07-22 16:51:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, stat.ML パーマリンク