Robust Clustering on High-Dimensional Data with Stochastic Quantization

要約

この論文では、従来のベクトル量子化 (クラスタリング) アルゴリズム、特に K-Means とその変形 K-Means++ の限界に対処し、高次元の教師なしおよび半教師あり学習問題に対するスケーラブルな代替手段としての確率的量子化 (SQ) アルゴリズムを検討します。
一部の従来のクラスタリング アルゴリズムでは、計算中のメモリ使用効率が低く、すべてのデータ サンプルをメモリにロードする必要があり、大規模なデータセットでは現実的ではありません。
ミニバッチ K 平均法などのバリアントは、メモリ使用量を削減することでこの問題を部分的に軽減しますが、クラスタリング問題の非凸性の性質により、堅牢な理論的収束の保証がありません。
対照的に、確率的量子化アルゴリズムは強力な理論的収束保証を提供し、クラスタリング タスクの堅牢な代替手段となります。
部分的にラベル付けされたデータを使用した画像分類問題におけるアルゴリズムの計算効率と迅速な収束を実証し、ラベル付けされたデータとラベル付けされていないデータのさまざまな比率にわたるモデルの精度を比較します。
高次元性の課題に対処するために、潜在空間で画像を低次元表現にエンコードするようにトリプレット ネットワークをトレーニングしました。これは、確率的量子化アルゴリズムと従来の量子化アルゴリズムの両方の効率を比較するための基礎として機能します。
さらに、適応学習率による修正を導入することで、アルゴリズムの収束速度を向上させます。

要約(オリジナル)

This paper addresses the limitations of traditional vector quantization (clustering) algorithms, particularly K-Means and its variant K-Means++, and explores the Stochastic Quantization (SQ) algorithm as a scalable alternative for high-dimensional unsupervised and semi-supervised learning problems. Some traditional clustering algorithms suffer from inefficient memory utilization during computation, necessitating the loading of all data samples into memory, which becomes impractical for large-scale datasets. While variants such as Mini-Batch K-Means partially mitigate this issue by reducing memory usage, they lack robust theoretical convergence guarantees due to the non-convex nature of clustering problems. In contrast, the Stochastic Quantization algorithm provides strong theoretical convergence guarantees, making it a robust alternative for clustering tasks. We demonstrate the computational efficiency and rapid convergence of the algorithm on an image classification problem with partially labeled data, comparing model accuracy across various ratios of labeled to unlabeled data. To address the challenge of high dimensionality, we trained Triplet Network to encode images into low-dimensional representations in a latent space, which serve as a basis for comparing the efficiency of both the Stochastic Quantization algorithm and traditional quantization algorithms. Furthermore, we enhance the algorithm’s convergence speed by introducing modifications with an adaptive learning rate.

arxiv情報

著者 Anton Kozyriev,Vladimir Norkin
発行日 2024-09-05 15:35:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 90C15, cs.LG, math.OC パーマリンク