Tight PAC-Bayesian Risk Certificates for Contrastive Learning

要約

対照表現学習は、ラベルのないデータの表現を拡張によって学習するための最新のパラダイムです。正確には、対照モデルは、意味的に類似したサンプルのペア (ポジティブ ペア) を、独立して描画されたサンプル (ネガティブ サンプル) よりも近くに埋め込むことを学習します。
実証的な成功と基礎モデルでの広く使用されているにもかかわらず、対照学習のための統計理論はまだあまり研究されていません。
最近の研究では、対照的な損失に対する一般化誤差限界を開発しましたが、結果として得られるリスク証明書は空虚なもの (Rademacher の複雑さまたは $f$ 発散に基づく証明書) であるか、サンプルに関して実際には不合理な強い仮定を必要とするかのいずれかです。
本論文では、一般的な SimCLR フレームワークの実際的な考慮事項を考慮して、対照表現学習のための非空の PAC ベイジアン リスク証明書を開発します。
特に、SimCLR は拡張データの正のペアを他のデータの負のサンプルとして再利用するため、強い依存性が生じ、古典的な PAC または PAC ベイジアン境界が適用できなくなることを考慮しています。
データ拡張や温度スケーリングなどの SimCLR 固有の要素を組み込むことで、下流の分類損失に関する既存の限界をさらに改良し、対照的なゼロ 1 リスクのリスク証明書を導き出します。
CIFAR-10 の実験で実証されているように、結果として生じる対比損失と下流予測の境界は、以前のリスク証明書の境界よりもはるかに厳しくなります。

要約(オリジナル)

Contrastive representation learning is a modern paradigm for learning representations of unlabeled data via augmentations — precisely, contrastive models learn to embed semantically similar pairs of samples (positive pairs) closer than independently drawn samples (negative samples). In spite of its empirical success and widespread use in foundation models, statistical theory for contrastive learning remains less explored. Recent works have developed generalization error bounds for contrastive losses, but the resulting risk certificates are either vacuous (certificates based on Rademacher complexity or $f$-divergence) or require strong assumptions about samples that are unreasonable in practice. The present paper develops non-vacuous PAC-Bayesian risk certificates for contrastive representation learning, considering the practical considerations of the popular SimCLR framework. Notably, we take into account that SimCLR reuses positive pairs of augmented data as negative samples for other data, thereby inducing strong dependence and making classical PAC or PAC-Bayesian bounds inapplicable. We further refine existing bounds on the downstream classification loss by incorporating SimCLR-specific factors, including data augmentation and temperature scaling, and derive risk certificates for the contrastive zero-one risk. The resulting bounds for contrastive loss and downstream prediction are much tighter than those of previous risk certificates, as demonstrated by experiments on CIFAR-10.

arxiv情報

著者 Anna van Elst,Debarghya Ghoshdastidar
発行日 2024-12-04 17:23:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク