Refining a $k$-nearest neighbor graph for a computationally efficient spectral clustering

要約

スペクトル クラスタリングは、さまざまな形状のクラスターを発見できるため、データ クラスタリングの一般的な選択肢になりました。
ただし、計算量が多いため、他のクラスタリング方法よりも常に好ましいとは限りません。
これらの計算要求を回避する効果的な方法の 1 つは、ポイントのサブセット (データ代表) に対してスペクトル クラスタリングを実行し、クラスタリングの結果を一般化することです。これは、近似スペクトル クラスタリング (ASC) として知られています。
ASC は、サンプリングまたは量子化を使用してデータ代表を選択します。
これにより、1) パフォーマンスの不一致 (これらのメソッドには初期化またはトレーニングのいずれかでランダムなステップがあるため)、2) ローカル統計の損失 (ペアワイズ類似性がデータ ポイントではなくデータ代表から抽出されるため) に対して脆弱になります。
$k$-最近傍グラフの洗練されたバージョンを提案しました。このグラフでは、データ ポイントを保持し、計算効率のためにエッジの数を積極的に減らします。
ローカル統計を利用して、クラスタ内距離に違反しないエッジを保持し、$k$-最近傍グラフの他のすべてのエッジを無効にしました。
また、クラスター数 $C$ を自動的に選択するオプションのステップも導入しました。
提案された方法は、合成データセットと実際のデータセットでテストされました。
ASC メソッドと比較して、提案されたメソッドは、エッジが大幅に削減されたにもかかわらず、一貫したパフォーマンスを提供しました。

要約(オリジナル)

Spectral clustering became a popular choice for data clustering for its ability of uncovering clusters of different shapes. However, it is not always preferable over other clustering methods due to its computational demands. One of the effective ways to bypass these computational demands is to perform spectral clustering on a subset of points (data representatives) then generalize the clustering outcome, this is known as approximate spectral clustering (ASC). ASC uses sampling or quantization to select data representatives. This makes it vulnerable to 1) performance inconsistency (since these methods have a random step either in initialization or training), 2) local statistics loss (because the pairwise similarities are extracted from data representatives instead of data points). We proposed a refined version of $k$-nearest neighbor graph, in which we keep data points and aggressively reduce number of edges for computational efficiency. Local statistics were exploited to keep the edges that do not violate the intra-cluster distances and nullify all other edges in the $k$-nearest neighbor graph. We also introduced an optional step to automatically select the number of clusters $C$. The proposed method was tested on synthetic and real datasets. Compared to ASC methods, the proposed method delivered a consistent performance despite significant reduction of edges.

arxiv情報

著者 Mashaan Alshammari,John Stavrakakis,Masahiro Takatsuka
発行日 2023-02-22 11:31:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG, cs.NE パーマリンク