要約
損失関数の幅広いファミリー(InfoNCEを含む)の下での対照学習(CL)は、ネットワークパラメーター$ \ boldsymbol {\theta}$とペアワイズ重要度$\alpha $で、座標ごとの最適化の統一された定式化を持っていることを示します。
\ emph {max player} $ \ boldsymbol {\ theta} $は、対比性の表現を学習し、\ emph {min player} $ \ alpha $は、類似した表現を共有する別個のサンプルのペアにより多くの重みを付けます。
$ \ alpha $ -CLと呼ばれる結果の定式化は、サンプルペアの重要度$ \ alpha $の構築方法によって異なる、さまざまな既存の対照損失を統合するだけでなく、一般的なものを超える新しい対照損失を与えるために外挿することもできます。
対照的な損失設計の新しい道を開く。
これらの新しい損失により、CIFAR10およびSTL-10で従来のInfoNCEと同等(またはそれ以上)のパフォーマンスが得られます。
さらに、最大プレーヤーも詳細に分析します。固定の$ \ alpha $を使用すると、最大プレーヤーは深い線形ネットワークの主成分分析(PCA)と同等であり、ほとんどすべての極小値はグローバルでランク1であり、回復します。
最適なPCAソリューション。
最後に、max playerの分析を2層のReLUネットワークに拡張し、その固定小数点がより高いランクを持つ可能性があることを示します。
要約(オリジナル)
We show that Contrastive Learning (CL) under a broad family of loss functions (including InfoNCE) has a unified formulation of coordinate-wise optimization on the network parameter $\boldsymbol{\theta}$ and pairwise importance $\alpha$, where the \emph{max player} $\boldsymbol{\theta}$ learns representation for contrastiveness, and the \emph{min player} $\alpha$ puts more weights on pairs of distinct samples that share similar representations. The resulting formulation, called $\alpha$-CL, unifies not only various existing contrastive losses, which differ by how sample-pair importance $\alpha$ is constructed, but also is able to extrapolate to give novel contrastive losses beyond popular ones, opening a new avenue of contrastive loss design. These novel losses yield comparable (or better) performance on CIFAR10 and STL-10 than classic InfoNCE. Furthermore, we also analyze the max player in detail: we prove that with fixed $\alpha$, max player is equivalent to Principal Component Analysis (PCA) for deep linear network, and almost all local minima are global and rank-1, recovering optimal PCA solutions. Finally, we extend our analysis on max player to 2-layer ReLU networks, showing that its fixed points can have higher ranks.
arxiv情報
著者 | Yuandong Tian |
発行日 | 2022-06-02 23:57:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google