Mixed-type Distance Shrinkage and Selection for Clustering via Kernel Metric Learning

要約

距離ベースのクラスタリングと分類は、混合された数値データとカテゴリデータをグループ化するためにさまざまな分野で広く使用されています。
多くのアルゴリズムでは、事前定義された距離測定値を使用して、データ ポイントの非類似性に基づいてデータ ポイントをクラスタリングします。
純粋な数値属性といくつかの順序付きおよび順序なしのカテゴリメトリクスを持つデータには距離ベースの尺度が多数存在しますが、連続特性と離散特性を同時に利用する混合型データの効率的かつ正確な距離は未解決の問題です。
多くのメトリクスは、数値属性をカテゴリ属性に、またはその逆に変換します。
データ ポイントを単一の属性タイプとして処理するか、各属性間の距離を個別に計算して合計します。
私たちは、混合カーネルを使用して非類似性を測定し、相互検証された最適な帯域幅を選択する KDSUM と呼ばれるメトリクスを提案します。
KDSUM は既存の混合タイプのメトリクスから一様な非類似性メトリクスへの縮小手法であり、連続のみ、カテゴリのみ、および
混合型データ。

要約(オリジナル)

Distance-based clustering and classification are widely used in various fields to group mixed numeric and categorical data. In many algorithms, a predefined distance measurement is used to cluster data points based on their dissimilarity. While there exist numerous distance-based measures for data with pure numerical attributes and several ordered and unordered categorical metrics, an efficient and accurate distance for mixed-type data that utilizes the continuous and discrete properties simulatenously is an open problem. Many metrics convert numerical attributes to categorical ones or vice versa. They handle the data points as a single attribute type or calculate a distance between each attribute separately and add them up. We propose a metric called KDSUM that uses mixed kernels to measure dissimilarity, with cross-validated optimal bandwidth selection. We demonstrate that KDSUM is a shrinkage method from existing mixed-type metrics to a uniform dissimilarity metric, and improves clustering accuracy when utilized in existing distance-based clustering algorithms on simulated and real-world datasets containing continuous-only, categorical-only, and mixed-type data.

arxiv情報

著者 Jesse S. Ghashti,John R. J. Thompson
発行日 2024-10-11 16:16:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62G07, 65D10, cs.LG, G.3, stat.CO, stat.ME, stat.OT パーマリンク