A Unified Framework for Center-based Clustering of Distributed Data

要約

私たちは、ユーザーのネットワーク上で機能する分散センターベースのクラスタリング アルゴリズム ファミリを開発しています。
提案されたシナリオでは、完全な結合データのクラスタリングを見つけることを目的として、ユーザーはローカル データセットを含み、直近の隣人とのみ通信します。
分散勾配クラスタリング (DGC-$\mathcal{F}_\rho$) と呼ばれる提案されたファミリは、$\rho \geq 1$ によってパラメータ化され、$\mathcal{F} を使用してユーザーの中心推定値の近接性を制御します。
$ クラスタリング損失を決定します。
私たちのフレームワークは、$K$-means や Huber 損失などの一般的なクラスタリング損失を含む、幅広いクラスの滑らかな凸損失関数を可能にします。
$K$-means や Huber 損失などの一般的なクラスタリング損失に特化した DGC-$\mathcal{F}_\rho$ は、新しい分散クラスタリング アルゴリズム DGC-KM$_\rho$ および DGC-HL$_\rho を生み出します。
$、一方、ロジスティックおよび公平関数に基づく新しいクラスタリング損失は、DGC-LL$_\rho$ および DGC-FL$_\rho$ につながります。
私たちは統合された分析を提供し、穏やかな仮定の下でいくつかの強力な結果を確立します。
まず、メソッドによって生成された中心のシーケンスが、任意の中心の初期化と $\rho$ の値の下で、明確に定義された固定点の概念に収束することを示します。
第二に、$\rho$ が増加するにつれて、DGC-$\mathcal{F}_\rho$ によって生成される不動点群がコンセンサス不動点の概念に収束することを証明します。
DGC-$\mathcal{F}_{\rho}$ のコンセンサス固定点は、全データにわたる勾配クラスタリングの固定点と同等であり、全データのクラスタリングが生成されることを保証することを示します。
ブレグマン損失の特殊な場合については、固定点がロイド点のセットに収束することを示します。
合成データと実際のデータに対する広範な数値実験により、理論的発見が確認され、私たちの方法の強力なパフォーマンスが示され、外れ値検出などの一般的なフレームワークの有用性と幅広い潜在的な応用が実証されています。

要約(オリジナル)

We develop a family of distributed center-based clustering algorithms that work over networks of users. In the proposed scenario, users contain a local dataset and communicate only with their immediate neighbours, with the aim of finding a clustering of the full, joint data. The proposed family, termed Distributed Gradient Clustering (DGC-$\mathcal{F}_\rho$), is parametrized by $\rho \geq 1$, controling the proximity of users’ center estimates, with $\mathcal{F}$ determining the clustering loss. Our framework allows for a broad class of smooth convex loss functions, including popular clustering losses like $K$-means and Huber loss. Specialized to popular clustering losses like $K$-means and Huber loss, DGC-$\mathcal{F}_\rho$ gives rise to novel distributed clustering algorithms DGC-KM$_\rho$ and DGC-HL$_\rho$, while novel clustering losses based on Logistic and Fair functions lead to DGC-LL$_\rho$ and DGC-FL$_\rho$. We provide a unified analysis and establish several strong results, under mild assumptions. First, we show that the sequence of centers generated by the methods converges to a well-defined notion of fixed point, under any center initialization and value of $\rho$. Second, we prove that, as $\rho$ increases, the family of fixed points produced by DGC-$\mathcal{F}_\rho$ converges to a notion of consensus fixed points. We show that consensus fixed points of DGC-$\mathcal{F}_{\rho}$ are equivalent to fixed points of gradient clustering over the full data, guaranteeing a clustering of the full data is produced. For the special case of Bregman losses, we show that our fixed points converge to the set of Lloyd points. Extensive numerical experiments on synthetic and real data confirm our theoretical findings, show strong performance of our methods and demonstrate the usefulness and wide range of potential applications of our general framework, such as outlier detection.

arxiv情報

著者 Aleksandar Armacki,Dragana Bajović,Dušan Jakovetić,Soummya Kar
発行日 2024-11-25 15:47:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, cs.MA パーマリンク