要約
広く研究されているデータモデルと一般的な損失およびサンプル硬化機能の場合、監視されたコントラスト学習(SCL)、ハードSCL(HSCL)、および監視されていないコントラスト学習(UCL)の喪失が、ニューラルコラプス(NC)、つまり、クラスが同じクラスの形式を形成することを意味する表現によって最小化されることを最小限に抑えます。
また、あらゆる表現マッピングについて、HSCLおよびHARD-UCL(HUCL)損失が対応するSCLおよびUCL損失によって低下することを証明します。
既存の文献とは対照的に、SCLの理論的結果は、広く使用されているInfonce損失関数を含む一般的な損失関数クラスの拡張ビューのクラス条件付き独立性を必要としません。
さらに、私たちの証明はよりシンプルで、コンパクトで、透明です。
既存の文献と同様に、私たちの理論的主張は、バッチが最適化に使用される実際のシナリオについても保持しています。
ランダムな初期化と適切な硬度レベルを備えたHSCLおよびHUCL損失のAdamの最適化(バッチを使用して)を初めて実証し、ユニットボールまたはユニット球体特徴の正規化を組み込むと、実際にNCジオメトリに収束する可能性があります。
ただし、硬い陰謀や特徴の正規化を組み込むことなく、Adamを介して学習した表現は、寸法収縮(DC)に苦しみ、NCジオメトリの達成に失敗します。
これらの結果は、対照的な表現学習におけるハードネガティブサンプリングの役割を例示しており、将来の仕事のためのいくつかのオープンな理論的問題で結論付けています。
コードはhttps://github.com/rjiang03/hcl/tree/mainにあります
要約(オリジナル)
For a widely-studied data model and general loss and sample-hardening functions we prove that the losses of Supervised Contrastive Learning (SCL), Hard-SCL (HSCL), and Unsupervised Contrastive Learning (UCL) are minimized by representations that exhibit Neural-Collapse (NC), i.e., the class means form an Equiangular Tight Frame (ETF) and data from the same class are mapped to the same representation. We also prove that for any representation mapping, the HSCL and Hard-UCL (HUCL) losses are lower bounded by the corresponding SCL and UCL losses. In contrast to existing literature, our theoretical results for SCL do not require class-conditional independence of augmented views and work for a general loss function class that includes the widely used InfoNCE loss function. Moreover, our proofs are simpler, compact, and transparent. Similar to existing literature, our theoretical claims also hold for the practical scenario where batching is used for optimization. We empirically demonstrate, for the first time, that Adam optimization (with batching) of HSCL and HUCL losses with random initialization and suitable hardness levels can indeed converge to the NC-geometry if we incorporate unit-ball or unit-sphere feature normalization. Without incorporating hard-negatives or feature normalization, however, the representations learned via Adam suffer from Dimensional-Collapse (DC) and fail to attain the NC-geometry. These results exemplify the role of hard-negative sampling in contrastive representation learning and we conclude with several open theoretical problems for future work. The code can be found at https://github.com/rjiang03/HCL/tree/main
arxiv情報
著者 | Ruijie Jiang,Thuan Nguyen,Shuchin Aeron,Prakash Ishwar |
発行日 | 2025-05-07 17:12:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google