Hard Regularization to Prevent Deep Online Clustering Collapse without Data Augmentation

要約

オンライン ディープ クラスタリングとは、特徴抽出ネットワークとクラスタリング モデルを併用して、処理される新しいデータ ポイントまたはバッチにクラスター ラベルを割り当てることを指します。
オンライン クラスタリングは、オフライン手法よりも高速かつ多用途ですが、エンコーダがすべての入力を同じポイントにマップし、すべてが単一のクラスタに配置される、崩壊したソリューションに簡単に到達できます。
成功している既存のモデルは、この問題を回避するためにさまざまな手法を採用していますが、そのほとんどはデータの拡張を必要とするか、データセット全体の平均的なソフト割り当てを各クラスターに対して同じにすることを目的としています。
既存の手法とは異なり、データ拡張を必要とせず、ハード割り当てを正規化する手法を提案します。
ベイジアン フレームワークを使用して、エンコーダー ネットワークのトレーニングに直接組み込むことができる直感的な最適化目標を導き出します。
4 つの画像データセットと 1 つの人間の活動認識データセットでテストされた結果、他の方法よりも確実に崩壊を一貫して回避し、より正確なクラスタリングにつながります。
また、ハード クラスターの割り当てを正規化するという選択を正当化するために、さらなる実験と分析も実施します。
コードは https://github.com/Lou1sM/online_hard_clustering で入手できます。

要約(オリジナル)

Online deep clustering refers to the joint use of a feature extraction network and a clustering model to assign cluster labels to each new data point or batch as it is processed. While faster and more versatile than offline methods, online clustering can easily reach the collapsed solution where the encoder maps all inputs to the same point and all are put into a single cluster. Successful existing models have employed various techniques to avoid this problem, most of which require data augmentation or which aim to make the average soft assignment across the dataset the same for each cluster. We propose a method that does not require data augmentation, and that, differently from existing methods, regularizes the hard assignments. Using a Bayesian framework, we derive an intuitive optimization objective that can be straightforwardly included in the training of the encoder network. Tested on four image datasets and one human-activity recognition dataset, it consistently avoids collapse more robustly than other methods and leads to more accurate clustering. We also conduct further experiments and analyses justifying our choice to regularize the hard cluster assignments. Code is available at https://github.com/Lou1sM/online_hard_clustering.

arxiv情報

著者 Louis Mahon,Thomas Lukasiewicz
発行日 2023-12-20 18:56:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク