A Sublinear-Time Spectral Clustering Oracle with Improved Preprocessing Time

要約

我々は、強いクラスタ性を示すグラフのための準線形時間スペクトルクラスタリングオラクルを設計するという問題に取り組みます。
このようなグラフには、大きな内部コンダクタンス (少なくとも $\varphi$) と小さな外部コンダクタンス (最大 $\varepsilon$) を特徴とする $k$ 潜在クラスターが含まれています。
私たちの目的は、グラフを前処理してメンバーシップ クエリのクラスタリングを可能にすることです。重要な要件は、前処理とクエリ応答の両方が線形未満の時間で実行される必要があり、結果として得られるパーティションが地面に近い $k$ パーティションと一致する必要があることです。
-真実のクラスタリング。
以前のオラクルは、内部コンダクタンスと外部コンダクタンスの間の $\textrm{poly}(k)\log n$ ギャップか、指数関数的 ($k/\varepsilon$ での) 前処理時間のいずれかに依存していました。
私たちのアルゴリズムは、誤分類率がわずかに高くなりますが、これらの仮定を緩和します。
また、クラスタリングオラクルが少数のランダムなエッジ削除に対して堅牢であることも示します。
理論的な限界を検証するために、合成ネットワークで実験を実施しました。

要約(オリジナル)

We address the problem of designing a sublinear-time spectral clustering oracle for graphs that exhibit strong clusterability. Such graphs contain $k$ latent clusters, each characterized by a large inner conductance (at least $\varphi$) and a small outer conductance (at most $\varepsilon$). Our aim is to preprocess the graph to enable clustering membership queries, with the key requirement that both preprocessing and query answering should be performed in sublinear time, and the resulting partition should be consistent with a $k$-partition that is close to the ground-truth clustering. Previous oracles have relied on either a $\textrm{poly}(k)\log n$ gap between inner and outer conductances or exponential (in $k/\varepsilon$) preprocessing time. Our algorithm relaxes these assumptions, albeit at the cost of a slightly higher misclassification ratio. We also show that our clustering oracle is robust against a few random edge deletions. To validate our theoretical bounds, we conducted experiments on synthetic networks.

arxiv情報

著者 Ranran Shen,Pan Peng
発行日 2023-12-29 08:32:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, cs.SI パーマリンク