Clustering Properties of Self-Supervised Learning

要約

共同埋め込みアーキテクチャを介した自己教師の学習(SSL)メソッドは、ラベルの監督が存在しない場合、魔法のように強力なクラスタリング特性を備えた意味的に豊富な表現をキャプチャするのに非常に効果的であることが証明されています。
それにもかかわらず、これらの未開発の特性を活用して自分自身を改善することを探求した人はほとんどいません。
この論文では、エンコーダの出力$をエンコーダの$エンコード$が他のコンポーネントと比較して優れた、より安定したクラスタリングプロパティを示すというさまざまなメトリックを通じて証拠を提供します。
この洞察に基づいて、私たちは、モデルのクラスタリングプロパティを活用して学習を自己誘導する方法で促進する、表現ソフト割り当て(RESA)と呼ばれる新しいポジティブフィードバックSSLメソッドを提案します。
標準のSSLベンチマークに関する広範な実験により、RESAで前処理されたモデルが他の最先端のSSLメソッドを大幅に上回ることが明らかになりました。
最後に、RESAがより良いクラスタリングプロパティを促進する方法を分析し、細粒レベルと粗粒レベルの両方でクラスタリングパフォーマンスを効果的に強化し、本質的に構造的で意味的に意味のある表現を形作ることを示しています。

要約(オリジナル)

Self-supervised learning (SSL) methods via joint embedding architectures have proven remarkably effective at capturing semantically rich representations with strong clustering properties, magically in the absence of label supervision. Despite this, few of them have explored leveraging these untapped properties to improve themselves. In this paper, we provide an evidence through various metrics that the encoder’s output $encoding$ exhibits superior and more stable clustering properties compared to other components. Building on this insight, we propose a novel positive-feedback SSL method, termed Representation Soft Assignment (ReSA), which leverages the model’s clustering properties to promote learning in a self-guided manner. Extensive experiments on standard SSL benchmarks reveal that models pretrained with ReSA outperform other state-of-the-art SSL methods by a significant margin. Finally, we analyze how ReSA facilitates better clustering properties, demonstrating that it effectively enhances clustering performance at both fine-grained and coarse-grained levels, shaping representations that are inherently more structured and semantically meaningful.

arxiv情報

著者 Xi Weng,Jianing An,Xudong Ma,Binhang Qi,Jie Luo,Xi Yang,Jin Song Dong,Lei Huang
発行日 2025-01-30 16:05:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク