Kernel KMeans clustering splits for end-to-end unsupervised decision trees

要約

ツリーは、比較的小さなデータセットで説明可能な予測を取得するのに便利なモデルです。
教師あり学習におけるこのようなツリーのエンドツーエンド構築については多くの提案がありますが、ラベルを使用せずにクラスタリング用にツリーをエンドツーエンドで学習することは未解決の課題のままです。
ほとんどの研究は、別のクラスタリング アルゴリズムの結果をツリーで解釈することに焦点を当てているため、ここでは、クラスタリング用の新しいエンドツーエンドでトレーニングされた教師なしバイナリ ツリー、Kauri を紹介します。
このメソッドは、重心の定義を必要とせずに、カーネル KMeans 目標の貪欲な最大化を実行します。
このモデルを複数のデータセット上で最近の教師なしツリーと比較し、線形カーネルを使用した場合でもカウリが同様にパフォーマンスを発揮することを示します。
他のカーネルの場合、Kauri はカーネル KMeans と CART デシジョン ツリーの連結よりも優れたパフォーマンスを発揮することがよくあります。

要約(オリジナル)

Trees are convenient models for obtaining explainable predictions on relatively small datasets. Although there are many proposals for the end-to-end construction of such trees in supervised learning, learning a tree end-to-end for clustering without labels remains an open challenge. As most works focus on interpreting with trees the result of another clustering algorithm, we present here a novel end-to-end trained unsupervised binary tree for clustering: Kauri. This method performs a greedy maximisation of the kernel KMeans objective without requiring the definition of centroids. We compare this model on multiple datasets with recent unsupervised trees and show that Kauri performs identically when using a linear kernel. For other kernels, Kauri often outperforms the concatenation of kernel KMeans and a CART decision tree.

arxiv情報

著者 Louis Ohl,Pierre-Alexandre Mattei,Mickaël Leclercq,Arnaud Droit,Frédéric Precioso
発行日 2024-02-19 15:39:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62H30, cs.AI, cs.LG, G.3, stat.ML パーマリンク