Shift of Pairwise Similarities for Data Clustering

要約

いくつかのクラスタリング方法(例:正規化されたカットと比率)は、よりバランスの取れたパーティション化を生成するために、最小カットコスト関数をクラスター依存係数(クラスターのサイズまたは程度)で分割します。
代わりに、元のコスト関数にそのような正則化を追加することを調査します。
まず、正規化項がクラスターの2乗サイズの合計である場合を検討し、次にペアワイズの類似性の適応的な正則化に一般化します。
これは、それらの一部をネガティブにする可能性のあるペアワイズの類似性を(適応的に)変化させることにつながります。
次に、この方法と相関クラスタリングへの接続を調査し、新しいクラスタリング問題を解決するために、迅速な理論的収束速度で効率的なローカル検索最適化アルゴリズムを提案します。
以下では、いくつかの一般的なクラスタリング方法でのペアワイズの類似性のシフトを調査し、最後に、さまざまなデータセットでの広範な実験により、方法の優れたパフォーマンスを実証します。

要約(オリジナル)

Several clustering methods (e.g., Normalized Cut and Ratio Cut) divide the Min Cut cost function by a cluster dependent factor (e.g., the size or the degree of the clusters), in order to yield a more balanced partitioning. We, instead, investigate adding such regularizations to the original cost function. We first consider the case where the regularization term is the sum of the squared size of the clusters, and then generalize it to adaptive regularization of the pairwise similarities. This leads to shifting (adaptively) the pairwise similarities which might make some of them negative. We then study the connection of this method to Correlation Clustering and then propose an efficient local search optimization algorithm with fast theoretical convergence rate to solve the new clustering problem. In the following, we investigate the shift of pairwise similarities on some common clustering methods, and finally, we demonstrate the superior performance of the method by extensive experiments on different datasets.

arxiv情報

著者 Morteza Haghir Chehreghani
発行日 2025-02-05 17:12:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク