An Analysis of $D^α$ seeding for $k$-means

要約

最も人気のあるクラスタリング アルゴリズムの 1 つは、Arthur と Vassilvitskii (2007) による有名な $D^\alpha$ シード アルゴリズム ($\alpha=2$ の場合 $k$-means++ としても知られています) であり、このアルゴリズムは期待通りの結果を保証することを示しました。
($k$,$\alpha$) 平均コストの $O(2^{2\alpha}\cdot \log k)$ 近似解 (ユークリッド距離の $\alpha$ 乗)
任意の $\alpha\ge 1$ に対して。
最近では、Balcan、Dick、および White (2018) は、$\alpha>2$ で $D^\alpha$ シードを使用すると、標準の $k$ 平均目標 (すなわち、
$(k,2)$-はコストを意味します)。
この論文では、この現象を厳密に理解します。
任意の $\alpha>2$ について、$D^\alpha$ シードにより $$ O_\alpha \left((g_\alpha)^{2/\alpha}\cdot \left の近似係数が期待されることが保証されることを示します。
(\frac{\sigma_{\mathrm{max}}}{\sigma_{\mathrm{min}}}\right)^{2-4/\alpha}\cdot (\min\{\ell,\log k
標準 $k$ に対する \})^{2/\alpha}\right)$$ は、基礎となるクラスタリングのコストを意味します。
ここで、$g_\alpha$ は各クラスター内の点の集中度を表すパラメーターです。$\sigma_{\mathrm{max}}$ と $\sigma_{\mathrm{min}}$ は、次の最大および最小の標準偏差です。
$\ell$ は、基礎となるクラスタリングにおける個別の混合重みの数です ($2$ の最も近い累乗に四捨五入した後)。
$g_\alpha$ と $\sigma_{\mathrm{max}}/\sigma_{\mathrm{min}}$ への依存関係が緊密であることを示すいくつかの下限によってこれらの結果を補完します。
最後に、$D^\alpha$ シードを使用した場合の前述のパラメータの影響を実験的に確認します。
さらに、$\alpha>2$ は $D^2$ シードと比較して $k$ 平均コストを実際に改善でき、シード後にロイド アルゴリズムを実行した場合でもこの利点が残るという観察を裏付けます。

要約(オリジナル)

One of the most popular clustering algorithms is the celebrated $D^\alpha$ seeding algorithm (also know as $k$-means++ when $\alpha=2$) by Arthur and Vassilvitskii (2007), who showed that it guarantees in expectation an $O(2^{2\alpha}\cdot \log k)$-approximate solution to the ($k$,$\alpha$)-means cost (where euclidean distances are raised to the power $\alpha$) for any $\alpha\ge 1$. More recently, Balcan, Dick, and White (2018) observed experimentally that using $D^\alpha$ seeding with $\alpha>2$ can lead to a better solution with respect to the standard $k$-means objective (i.e. the $(k,2)$-means cost). In this paper, we provide a rigorous understanding of this phenomenon. For any $\alpha>2$, we show that $D^\alpha$ seeding guarantees in expectation an approximation factor of $$ O_\alpha \left((g_\alpha)^{2/\alpha}\cdot \left(\frac{\sigma_{\mathrm{max}}}{\sigma_{\mathrm{min}}}\right)^{2-4/\alpha}\cdot (\min\{\ell,\log k\})^{2/\alpha}\right)$$ with respect to the standard $k$-means cost of any underlying clustering; where $g_\alpha$ is a parameter capturing the concentration of the points in each cluster, $\sigma_{\mathrm{max}}$ and $\sigma_{\mathrm{min}}$ are the maximum and minimum standard deviation of the clusters around their means, and $\ell$ is the number of distinct mixing weights in the underlying clustering (after rounding them to the nearest power of $2$). We complement these results by some lower bounds showing that the dependency on $g_\alpha$ and $\sigma_{\mathrm{max}}/\sigma_{\mathrm{min}}$ is tight. Finally, we provide an experimental confirmation of the effects of the aforementioned parameters when using $D^\alpha$ seeding. Further, we corroborate the observation that $\alpha>2$ can indeed improve the $k$-means cost compared to $D^2$ seeding, and that this advantage remains even if we run Lloyd’s algorithm after the seeding.

arxiv情報

著者 Etienne Bamas,Sai Ganesh Nagarajan,Ola Svensson
発行日 2023-10-20 13:15:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG パーマリンク