Normalised clustering accuracy: An asymmetric external cluster validity measure

要約

単一の最適なクラスタリング アルゴリズムは存在しませんし、今後も存在しません。
それにもかかわらず、私たちは依然として、特定の種類のタスクでうまく機能するメソッドと体系的にパフォーマンスが低いメソッドを区別できるようにしたいと考えています。
クラスタリング アルゴリズムは従来、内部または外部の妥当性尺度を使用して評価されてきました。
内部測定は、クラスターのコンパクトさやポイントの分離性の平均度など、取得されたパーティションのさまざまな側面を定量化します。
ただし、彼らが支持するクラスタリングは時々無意味になる可能性があるため、その正当性には疑問があります。
一方、外部測定では、アルゴリズムの出力を専門家が提供する固定のグラウンド トゥルース グループと比較します。
この論文では、正規化された相互情報量、Fowlkes-Mallows、または調整されたランド指数などの一般的に使用される古典的なパーティション類似性スコアには、いくつかの望ましい特性が欠けていると主張します。
特に、最悪のシナリオを正確に識別できず、簡単に解釈できません。
その結果、多様なベンチマーク データセットに対するクラスタリング アルゴリズムの評価が困難になる可能性があります。
これらの問題を解決するために、新しい尺度を提案して分析します。それは、正規化され、いくつかの類似関係に関して単調で、スケール不変で、クラスター サイズの不均衡が補正された、最適なセット マッチング精度のバージョンです。
対称的でも偶然に調整されてもいない)。

要約(オリジナル)

There is no, nor will there ever be, single best clustering algorithm. Nevertheless, we would still like to be able to distinguish between methods that work well on certain task types and those that systematically underperform. Clustering algorithms are traditionally evaluated using either internal or external validity measures. Internal measures quantify different aspects of the obtained partitions, e.g., the average degree of cluster compactness or point separability. However, their validity is questionable because the clusterings they endorse can sometimes be meaningless. External measures, on the other hand, compare the algorithms’ outputs to fixed ground truth groupings provided by experts. In this paper, we argue that the commonly used classical partition similarity scores, such as the normalised mutual information, Fowlkes-Mallows, or adjusted Rand index, miss some desirable properties. In particular, they do not identify worst-case scenarios correctly, nor are they easily interpretable. As a consequence, the evaluation of clustering algorithms on diverse benchmark datasets can be difficult. To remedy these issues, we propose and analyse a new measure: a version of the optimal set-matching accuracy, which is normalised, monotonic with respect to some similarity relation, scale-invariant, and corrected for the imbalancedness of cluster sizes (but neither symmetric nor adjusted for chance).

arxiv情報

著者 Marek Gagolewski
発行日 2024-07-25 14:31:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク