要約
モードシーキングによる密度ベースのクラスタリング手法は、通常、局所的な密度推定を使用して、低密度の点からより高い近傍への局所的な依存関係などの構造情報をマイニングすることによってクラスタリングを実現します。
ただし、これらは \emph{local} 構造に過度に依存し、\emph{global} 特性を無視することが多く、そのためピークの選択や依存関係の確立において重大なエラーが発生する可能性があります。
依存関係を修正するハイパーパラメーターをさらに導入すると、この問題を軽減できますが、実際のデータセットではハイパーパラメーターを調整するのは困難であり、不可能ですらあります。
この論文では、密度分布と初期依存関係をさらにマイニングすることで得られる、点のグローバルな観点からの \emph{典型性} を利用して、局所的な依存関係を確立するための新しいアルゴリズム (TANGO) を提案します。
次に、TANGO は、調整された依存関係を利用してサブクラスターを取得し、パスベースの接続を組み込むことでサブクラスター間の類似性を特徴付けます。
サブクラスターでグラフカットを採用することで最終的なクラスター化を実現し、クラスター中心の難しい選択を回避します。
さらに、この論文は、典型性を計算するための理論的分析と効率的な方法を提供します。
いくつかの合成データセットと 16 ドルの実世界データセットに関する実験結果は、TANGO の有効性と優位性を示しています。
要約(オリジナル)
Density-based clustering methods by mode-seeking usually achieve clustering by using local density estimation to mine structural information, such as local dependencies from lower density points to higher neighbors. However, they often rely too heavily on \emph{local} structures and neglect \emph{global} characteristics, which can lead to significant errors in peak selection and dependency establishment. Although introducing more hyperparameters that revise dependencies can help mitigate this issue, tuning them is challenging and even impossible on real-world datasets. In this paper, we propose a new algorithm (TANGO) to establish local dependencies by exploiting a global-view \emph{typicality} of points, which is obtained by mining further the density distributions and initial dependencies. TANGO then obtains sub-clusters with the help of the adjusted dependencies, and characterizes the similarity between sub-clusters by incorporating path-based connectivity. It achieves final clustering by employing graph-cut on sub-clusters, thus avoiding the challenging selection of cluster centers. Moreover, this paper provides theoretical analysis and an efficient method for the calculation of typicality. Experimental results on several synthetic and $16$ real-world datasets demonstrate the effectiveness and superiority of TANGO.
arxiv情報
著者 | Haowen Ma,Zhiguo Long,Hua Meng |
発行日 | 2024-08-19 15:26:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google