Improved Learning-augmented Algorithms for k-means and k-medians Clustering

要約

$d$ 次元のユークリッド空間のデータセットと、どの点のサブセットを一緒にクラスター化する必要があるかを示すオラクルによって与えられる各データ点のラベルが与えられる、学習拡張設定でのクラスター化の問題を検討します。
この設定は、たとえばニューラル ネットワークによって出力されるラベルなど、クラスタリングの目的に関連するデータ セットに関する補助情報にアクセスできる状況をキャプチャします。
以前の作業に従って、ラベルが存在しない場合、予測された各クラスターの偽陽性と偽陰性の $c<1$ フラクションに対して最大で $\alpha \in (0,c)$ があると仮定します。 最適なクラスタリング コスト $\mathrm{OPT}$ を達成します。 サイズ $m$ のデータセットの場合、$O( d m \log m)$ ランタイムを維持しながら、以前のランダム化されたアルゴリズムと比較してクラスタリング コストの境界が改善されたセンターを生成する決定論的な $k$-means アルゴリズムを提案します。 さらに、私たちのアルゴリズムは、予測があまり正確でない場合でも機能します。つまり、$\alpha$ の上限が $1/2$ まで保持され、以前の作業で $\alpha$ が最大 $1/7$ であった場合よりも改善されます。 $k$-medians 問題の場合、近似係数の精度パラメータ $\alpha$ への依存性を 4 次改善して、コスト $(1+O(\alpha))\mathrm を取得することにより、以前の作業を改善します。 {OPT}$、必要なのは基本的に $O(md \log^3 m/\alpha)$ ランタイムだけです。

要約(オリジナル)

We consider the problem of clustering in the learning-augmented setting, where we are given a data set in $d$-dimensional Euclidean space, and a label for each data point given by an oracle indicating what subsets of points should be clustered together. This setting captures situations where we have access to some auxiliary information about the data set relevant for our clustering objective, for instance the labels output by a neural network. Following prior work, we assume that there are at most an $\alpha \in (0,c)$ for some $c<1$ fraction of false positives and false negatives in each predicted cluster, in the absence of which the labels would attain the optimal clustering cost $\mathrm{OPT}$. For a dataset of size $m$, we propose a deterministic $k$-means algorithm that produces centers with improved bound on clustering cost compared to the previous randomized algorithm while preserving the $O( d m \log m)$ runtime. Furthermore, our algorithm works even when the predictions are not very accurate, i.e. our bound holds for $\alpha$ up to $1/2$, an improvement over $\alpha$ being at most $1/7$ in the previous work. For the $k$-medians problem we improve upon prior work by achieving a biquadratic improvement in the dependence of the approximation factor on the accuracy parameter $\alpha$ to get a cost of $(1+O(\alpha))\mathrm{OPT}$, while requiring essentially just $O(md \log^3 m/\alpha)$ runtime.

arxiv情報

著者 Thy Nguyen,Anamay Chaturvedi,Huy Lê Nguyen
発行日 2023-03-01 17:41:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク