ClusterNet: A Perception-Based Clustering Model for Scattered Data

要約

タイトル:ClusterNet:散布データの知覚に基づくクラスタリングモデル

要約:
– スキャッタープロットのクラスタ分離は、一般的にk-meansやDBSCANなどのクラスタリング技術によって対処されます。
– しかし、これらのアルゴリズムは知覚メトリックに基づいていないため、出力は人間のクラスタ認識を反映していないことがあります。
– 人間のクラスタ認識と機械計算されたクラスタの差を埋めるために、散布データに直接作用する学習戦略を提案します。
– 我々はClusterNetを提案し、人間受容可能性を反映するように訓練されたポイントベースのディープラーニングモデルを構築しました。
– 人間が注釈をつけた散乱データを使用してClusterNetを訓練し、2Dキャンバス上にスキャッタープロットをレンダリングする代わりに、PointNet++アーキテクチャを使用して直接ポイントクラウドで推論します。
– この作業では、データセットの収集方法の詳細を提供し、結果の注釈の統計を報告し、実世界のデータに対するクラスタ分離の知覚的合意を調べます。
– さらに、クラスタリング技術と人間注釈者グループの間の正確度を測定する新しいメトリックを紹介し、既存の最先端のクラスタリング技術と我々のアプローチを比較します。

要約(オリジナル)

Cluster separation in scatterplots is a task that is typically tackled by widely used clustering techniques, such as for instance k-means or DBSCAN. However, as these algorithms are based on non-perceptual metrics, their output often does not reflect human cluster perception. To bridge the gap between human cluster perception and machine-computed clusters, we propose a learning strategy which directly operates on scattered data. To learn perceptual cluster separation on this data, we crowdsourced a large scale dataset, consisting of 7,320 point-wise cluster affiliations for bivariate data, which has been labeled by 384 human crowd workers. Based on this data, we were able to train ClusterNet, a point-based deep learning model, trained to reflect human perception of cluster separability. In order to train ClusterNet on human annotated data, we omit rendering scatterplots on a 2D canvas, but rather use a PointNet++ architecture enabling inference on point clouds directly. In this work, we provide details on how we collected our dataset, report statistics of the resulting annotations, and investigate perceptual agreement of cluster separation for real-world data. We further report the training and evaluation protocol of ClusterNet and introduce a novel metric, that measures the accuracy between a clustering technique and a group of human annotators. Finally, we compare our approach against existing state-of-the-art clustering techniques.

arxiv情報

著者 Sebastian Hartwig,Christian van Onzenoodt,Pedro Hermosilla,Timo Ropinski
発行日 2023-04-27 13:41:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.HC, cs.LG パーマリンク