要約
データをクラスター化することは、サンプルを特徴的なグループに分離することです。これは、理想的にはまとまりのある特性を持つ必要があります。
今日、多数のクラスタリングアルゴリズムが存在し、それらの違いは本質的に「凝集性特性」と知覚できるものにあります。
したがって、クラスターの性質に関する仮説を設定する必要があります。それらは生成的または差別的である可能性があります。
過去10年間で、神経ネットワークが高次元データを頻繁に識別的に処理することを含む深いクラスタリング方法の印象的な成長を目撃しました。
主に識別仮説に集中します。
この論文では、私たちの目的は、差別的クラスタリング方法の進化と、特に差別的モデルの仮定の性質が時間の経過とともにどのように変化したかについてのアクセス可能な歴史的視点を提供することです:決定境界から不変批評家まで。
相互情報が(深い)差別的クラスタリング方法の進歩の歴史的基盤であることを強調しています。
また、相互情報のいくつかの既知の制限と、差別的なクラスタリング方法がそれらを回避しようとした方法を示します。
次に、クラスターの数の選択に関して、識別クラスタリングが直面する課題について説明します。
最後に、識別クラスタリングのために開発した専用のPythonパッケージであるGemclusを使用して、これらの手法を紹介します。
要約(オリジナル)
To cluster data is to separate samples into distinctive groups that should ideally have some cohesive properties. Today, numerous clustering algorithms exist, and their differences lie essentially in what can be perceived as “cohesive properties”. Therefore, hypotheses on the nature of clusters must be set: they can be either generative or discriminative. As the last decade witnessed the impressive growth of deep clustering methods that involve neural networks to handle high-dimensional data often in a discriminative manner; we concentrate mainly on the discriminative hypotheses. In this paper, our aim is to provide an accessible historical perspective on the evolution of discriminative clustering methods and notably how the nature of assumptions of the discriminative models changed over time: from decision boundaries to invariance critics. We notably highlight how mutual information has been a historical cornerstone of the progress of (deep) discriminative clustering methods. We also show some known limitations of mutual information and how discriminative clustering methods tried to circumvent those. We then discuss the challenges that discriminative clustering faces with respect to the selection of the number of clusters. Finally, we showcase these techniques using the dedicated Python package, GemClus, that we have developed for discriminative clustering.
arxiv情報
著者 | Louis Ohl,Pierre-Alexandre Mattei,Frédéric Precioso |
発行日 | 2025-05-07 14:54:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google