要約
広く研究されているデータ モデルと一般的な損失およびサンプル強化関数について、教師あり対照学習 (SCL)、ハード SCL (HSCL)、および教師なし対照学習 (UCL) の損失がニューラル パフォーマンスを示す表現によって最小限に抑えられることを証明します。
Collapse (NC)、つまり、クラス平均が等角タイトフレーム (ETF) を形成し、同じクラスからのデータが同じ表現にマッピングされます。
また、どのような表現マッピングでも、HSCL およびハード UCL (HUCL) 損失が、対応する SCL および UCL 損失によって下限されることも証明します。
既存の文献とは対照的に、SCL の理論的結果は拡張ビューのクラス条件独立性を必要とせず、広く使用されている InfoNCE 損失関数を含む一般的な損失関数クラスに対して機能します。
さらに、私たちの証明はよりシンプル、コンパクト、そして透明です。
既存の文献と同様に、私たちの理論的主張は、最適化にバッチ処理が使用される実際のシナリオにも当てはまります。
我々は、単位球または単位球の特徴正規化を組み込んだ場合、ランダム初期化と適切な硬度レベルによる HSCL および HUCL 損失の Adam 最適化 (バッチ処理による) が実際に NC ジオメトリに収束できることを初めて経験的に示します。
ただし、ハード ネガティブや特徴正規化を組み込んでいない場合、Adam 経由で学習した表現は次元崩壊 (DC) が発生し、NC ジオメトリを達成できません。
これらの結果は、対照表現学習におけるハードネガティブ サンプリングの役割を例示しており、将来の研究に向けたいくつかの未解決の理論的問題を結論づけています。
コードは \url{https://github.com/rjiang03/HCL/tree/main} にあります。
要約(オリジナル)
For a widely-studied data model and general loss and sample-hardening functions we prove that the losses of Supervised Contrastive Learning (SCL), Hard-SCL (HSCL), and Unsupervised Contrastive Learning (UCL) are minimized by representations that exhibit Neural-Collapse (NC), i.e., the class means form an Equiangular Tight Frame (ETF) and data from the same class are mapped to the same representation. We also prove that for any representation mapping, the HSCL and Hard-UCL (HUCL) losses are lower bounded by the corresponding SCL and UCL losses. In contrast to existing literature, our theoretical results for SCL do not require class-conditional independence of augmented views and work for a general loss function class that includes the widely used InfoNCE loss function. Moreover, our proofs are simpler, compact, and transparent. Similar to existing literature, our theoretical claims also hold for the practical scenario where batching is used for optimization. We empirically demonstrate, for the first time, that Adam optimization (with batching) of HSCL and HUCL losses with random initialization and suitable hardness levels can indeed converge to the NC-geometry if we incorporate unit-ball or unit-sphere feature normalization. Without incorporating hard-negatives or feature normalization, however, the representations learned via Adam suffer from Dimensional-Collapse (DC) and fail to attain the NC-geometry. These results exemplify the role of hard-negative sampling in contrastive representation learning and we conclude with several open theoretical problems for future work. The code can be found at \url{https://github.com/rjiang03/HCL/tree/main}
arxiv情報
著者 | Ruijie Jiang,Thuan Nguyen,Shuchin Aeron,Prakash Ishwar |
発行日 | 2024-10-29 15:33:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google