MC-GTA: Metric-Constrained Model-Based Clustering using Goodness-of-fit Tests with Autocorrelations

要約

車両センサー軌道のグループ化など、幅広い (多変量) 時間 (1D) および空間 (2D) データ分析タスクを、特定のメトリック制約を使用したクラスタリングとして定式化できます。
既存のメトリックに制約されたクラスタリング アルゴリズムは、特徴の類似性とメトリックの距離の間の豊富な相関関係、つまりメトリックの自己相関を見落としています。
これらのクラスタリング アルゴリズムのモデルベースのバリエーション (TICC や STICC など) は SOTA パフォーマンスを達成しますが、メトリックに制約された期待値最大化手順を使用するため、計算の不安定性と複雑さの影響を受けます。
これら 2 つの問題に対処するために、我々は新しいクラスタリング アルゴリズム MC-GTA (Model-based Clustering via Goodness-of-fit Tests with Autocorrelations) を提案します。
その目的は、特徴類似性項 (2 乗ワッサースタイン 2 距離) と計量自己相関項 (古典的なセミバリオグラムの新しい多変量一般化) のペアワイズ加重和のみで構成されます。
我々は、MC-GTA が、適合度テストに合格していない、つまり統計的に同じ分布に由来していないクラスター内観測ペアの総ヒンジ損失を効果的に最小限に抑えていることを示します。
1D/2D 合成データセットと現実世界のデータセットの実験により、MC-GTA がメトリックの自己相関をうまく組み込んでいることが実証されました。
より高速で安定した最適化 (10 倍以上の高速化) により、強力なベースラインを大幅に上回ります (ARI で最大 14.3%、NMI で 32.1%)。

要約(オリジナル)

A wide range of (multivariate) temporal (1D) and spatial (2D) data analysis tasks, such as grouping vehicle sensor trajectories, can be formulated as clustering with given metric constraints. Existing metric-constrained clustering algorithms overlook the rich correlation between feature similarity and metric distance, i.e., metric autocorrelation. The model-based variations of these clustering algorithms (e.g. TICC and STICC) achieve SOTA performance, yet suffer from computational instability and complexity by using a metric-constrained Expectation-Maximization procedure. In order to address these two problems, we propose a novel clustering algorithm, MC-GTA (Model-based Clustering via Goodness-of-fit Tests with Autocorrelations). Its objective is only composed of pairwise weighted sums of feature similarity terms (square Wasserstein-2 distance) and metric autocorrelation terms (a novel multivariate generalization of classic semivariogram). We show that MC-GTA is effectively minimizing the total hinge loss for intra-cluster observation pairs not passing goodness-of-fit tests, i.e., statistically not originating from the same distribution. Experiments on 1D/2D synthetic and real-world datasets demonstrate that MC-GTA successfully incorporates metric autocorrelation. It outperforms strong baselines by large margins (up to 14.3% in ARI and 32.1% in NMI) with faster and stabler optimization (>10x speedup).

arxiv情報

著者 Zhangyu Wang,Gengchen Mai,Krzysztof Janowicz,Ni Lao
発行日 2024-05-28 17:35:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.AP パーマリンク