Gap-Free Clustering: Sensitivity and Robustness of SDP

要約

私たちは、大きなクラスターと小さな回復不可能なクラスターの両方が存在する場合の確率ブロック モデル (SBM) におけるグラフ クラスタリングを研究します。
正確な回復を達成する以前の凸緩和アプローチでは、サイズ $o(\sqrt{n})$ の小さなクラスターが許可されなかったり、回復された最小のクラスターと回復されていない最大のクラスターの間にサイズのギャップが必要でした。
私たちは、これらの要件を取り除き、残りのクラスター サイズに関係なく、大きなクラスターを確実に回復する半定値計画法 (SDP) に基づくアルゴリズムを提供します。
中規模のクラスターは、回復しきい値に近いため、小さなノイズの摂動に対して非常に敏感になり、閉じた形式の候補解を得ることができないため、分析に独特の課題をもたらします。
私たちは、1 行のノイズを除去することで SDP 解が大幅に変化する可能性がある場合でも、SDP 解とノイズ ベクトルの間の相関を制御する Leave-One-Out スタイルの引数などの新しい手法を開発します。
また、潜在的な独立した関心の改善された固有値摂動境界も開発します。
私たちの結果は、代替アルゴリズムでは困難な特定の半ランダム設定に対して堅牢です。
ギャップのないクラスタリング手順を使用すると、優れたクエリの複雑さを備えた欠陥のあるオラクルによるクラスタリングの問題に対する効率的なアルゴリズムが得られ、特に多数の小さなクラスターが存在する場合でも $o(n^2)$ のサンプル複雑さを達成できます。
私たちのギャップフリー クラスタリング手順は、再帰的クラスタリングのアルゴリズムの改善にもつながります。

要約(オリジナル)

We study graph clustering in the Stochastic Block Model (SBM) in the presence of both large clusters and small, unrecoverable clusters. Previous convex relaxation approaches achieving exact recovery do not allow any small clusters of size $o(\sqrt{n})$, or require a size gap between the smallest recovered cluster and the largest non-recovered cluster. We provide an algorithm based on semidefinite programming (SDP) which removes these requirements and provably recovers large clusters regardless of the remaining cluster sizes. Mid-sized clusters pose unique challenges to the analysis, since their proximity to the recovery threshold makes them highly sensitive to small noise perturbations and precludes a closed-form candidate solution. We develop novel techniques, including a leave-one-out-style argument which controls the correlation between SDP solutions and noise vectors even when the removal of one row of noise can drastically change the SDP solution. We also develop improved eigenvalue perturbation bounds of potential independent interest. Our results are robust to certain semirandom settings that are challenging for alternative algorithms. Using our gap-free clustering procedure, we obtain efficient algorithms for the problem of clustering with a faulty oracle with superior query complexities, notably achieving $o(n^2)$ sample complexity even in the presence of a large number of small clusters. Our gap-free clustering procedure also leads to improved algorithms for recursive clustering.

arxiv情報

著者 Matthew Zurek,Yudong Chen
発行日 2024-06-18 17:13:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.IT, cs.LG, math.IT, math.OC, stat.ML パーマリンク