要約
高次元空間でのクラスタリングは難しい作業です。
通常の距離メトリックは、次元の呪いの下では適切でなくなる可能性があります。
実際、メトリックの選択は非常に重要であり、データセットの特性に大きく依存します。
ただし、単一のメトリックを使用して、異なるドメインの複数のデータセットに対してクラスタリングを正しく実行できます。
そうすることを提案し、転送可能なメトリックを学習するためのフレームワークを提供します。
ラベル付けされたデータセットでメトリクスを学習し、それを別のデータセットに適用して、一般的な意味で望ましいクラスタリングを特徴付ける埋め込みスペースを使用できることを示します。
複雑さが可変のいくつかのデータセット (合成、MNIST、SVHN、オムニグロット) でこのようなメトリックを学習およびテストし、少数のラベル付きトレーニング データセットと浅いネットワークのみを使用しながら、最先端技術と競合する結果を達成します。
要約(オリジナル)
Clustering in high dimension spaces is a difficult task; the usual distance metrics may no longer be appropriate under the curse of dimensionality. Indeed, the choice of the metric is crucial, and it is highly dependent on the dataset characteristics. However a single metric could be used to correctly perform clustering on multiple datasets of different domains. We propose to do so, providing a framework for learning a transferable metric. We show that we can learn a metric on a labelled dataset, then apply it to cluster a different dataset, using an embedding space that characterises a desired clustering in the generic sense. We learn and test such metrics on several datasets of variable complexity (synthetic, MNIST, SVHN, omniglot) and achieve results competitive with the state-of-the-art while using only a small number of labelled training datasets and shallow networks.
arxiv情報
著者 | Simo Alami. C,Rim Kaddah,Jesse Read |
発行日 | 2023-02-13 17:09:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google