要約
クラスタリングは、点のセットが与えられると、点が割り当てられる中心にできるだけ近づくように、点の集合を $k$ クラスターに分割するものを見つけることから構成されます。
最も一般的には、中心は点そのものであり、これが有名な $k$-median 目標と $k$-mean 目標につながります。
$j$ 次元部分空間となる中心を選択することもでき、これにより部分空間クラスタリングが生じます。
この論文では、これらの問題の学習限界について検討します。
つまり、未知だが固定された分布 $\mathcal{D}$ から独立して抽出された $n$ サンプル $P$ のセットが与えられた場合、$P$ で計算された解は $\mathcal の最適なクラスタリングにどれだけ早く収束するでしょうか。
{D}$?
最適に近い結果がいくつか得られます。
特に、中心ベースの目標の場合、$\tilde{O}\left(\sqrt{{k}/{n}}\right)$ の収束率を示します。
これは、[Fefferman、Mitter、および Narayanan、Journal of the Mathematical Society 2016] および [Bartlett、Linder、および Lugosi、IEEE Trans.
情報
Theory 1998] $k$-means は、$k$-median などの他の重要な目的にも拡張されます。
$j$ 次元の部分空間による部分空間クラスタリングの場合、$\tilde{O}\left(\sqrt{\frac{kj^2}{n}}\right)$ の収束率を示します。
これらは、これらの問題のほとんどに対する最初の証明可能な限界です。
$k$-means を一般化する射影クラスタリングの特定のケースでは、$\Omega\left(\sqrt{\frac{kj}{n}}\right)$ の収束率が必要であることを示し、それによって次のことを証明します。
[Fefferman、Mitter、Narayanan、Journal of the Mathematical Society 2016] の境界は本質的に最適です。
要約(オリジナル)
Given a set of points, clustering consists of finding a partition of a point set into $k$ clusters such that the center to which a point is assigned is as close as possible. Most commonly, centers are points themselves, which leads to the famous $k$-median and $k$-means objectives. One may also choose centers to be $j$ dimensional subspaces, which gives rise to subspace clustering. In this paper, we consider learning bounds for these problems. That is, given a set of $n$ samples $P$ drawn independently from some unknown, but fixed distribution $\mathcal{D}$, how quickly does a solution computed on $P$ converge to the optimal clustering of $\mathcal{D}$? We give several near optimal results. In particular, For center-based objectives, we show a convergence rate of $\tilde{O}\left(\sqrt{{k}/{n}}\right)$. This matches the known optimal bounds of [Fefferman, Mitter, and Narayanan, Journal of the Mathematical Society 2016] and [Bartlett, Linder, and Lugosi, IEEE Trans. Inf. Theory 1998] for $k$-means and extends it to other important objectives such as $k$-median. For subspace clustering with $j$-dimensional subspaces, we show a convergence rate of $\tilde{O}\left(\sqrt{\frac{kj^2}{n}}\right)$. These are the first provable bounds for most of these problems. For the specific case of projective clustering, which generalizes $k$-means, we show a convergence rate of $\Omega\left(\sqrt{\frac{kj}{n}}\right)$ is necessary, thereby proving that the bounds from [Fefferman, Mitter, and Narayanan, Journal of the Mathematical Society 2016] are essentially optimal.
arxiv情報
著者 | Maria Sofia Bucarelli,Matilde Fjeldsø Larsen,Chris Schwiegelshohn,Mads Bech Toftrup |
発行日 | 2023-10-13 14:15:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google