Adversarially robust clustering with optimality guarantees

要約

サブガウス混合から得られるデータ ポイントのクラスタリングの問題を検討します。
Lloyd アルゴリズムなど、最適なラベル誤りエラーを確実に達成する既存の方法は、通常、外れ値に対して脆弱です。
対照的に、敵対的な摂動に対して堅牢に見えるクラスタリング手法は、最適な統計的保証を満たすかどうかは知られていません。
敵対的外れ値の存在を許容する場合でも、最適な誤ラベル率を取得する単純なアルゴリズムを提案します。
私たちのアルゴリズムは、弱い初期化条件が満たされる場合、一定の反復で最適なエラー率を達成します。
外れ値がない場合、固定次元では、理論的な保証はロイド アルゴリズムの保証と同様です。
私たちの方法の理論的保証をサポートするために、さまざまなシミュレートされたデータセットに対する広範な実験が行われています。

要約(オリジナル)

We consider the problem of clustering data points coming from sub-Gaussian mixtures. Existing methods that provably achieve the optimal mislabeling error, such as the Lloyd algorithm, are usually vulnerable to outliers. In contrast, clustering methods seemingly robust to adversarial perturbations are not known to satisfy the optimal statistical guarantees. We propose a simple algorithm that obtains the optimal mislabeling rate even when we allow adversarial outliers to be present. Our algorithm achieves the optimal error rate in constant iterations when a weak initialization condition is satisfied. In the absence of outliers, in fixed dimensions, our theoretical guarantees are similar to that of the Lloyd algorithm. Extensive experiments on various simulated data sets are conducted to support the theoretical guarantees of our method.

arxiv情報

著者 Soham Jana,Kun Yang,Sanjeev Kulkarni
発行日 2023-06-16 17:17:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.TH パーマリンク