要約
この論文では、深層ニューラル ネットワークを表現関数として採用する深層対比表現学習フレームワークにおける教師なしリスクの一般化限界を示します。
私たちはこの問題に 2 つの角度からアプローチします。
一方で、ニューラル ネットワークの全体的なサイズに応じて調整されるパラメーターカウントの限界を導き出します。
一方、ニューラル ネットワークの重み行列のノルムに合わせてスケールするノルムベースの境界を提供します。
対数係数を無視すると、境界は $k$ (対比学習に提供されるタプルのサイズ) から独立します。
私たちの知る限り、この特性は他の 1 つの研究によってのみ共有されます。この研究では、異なる証明戦略が採用されており、ピーリング技術の使用によるネットワークの深さへの非常に強い指数関数的依存が発生しています。
私たちの結果は、サンプル全体にわたる均一な基準に関して数値をカバーする強力な結果を活用することで、これを回避します。
さらに、損失増大技術を利用して、行列規範への依存性とネットワークの深さへの暗黙的な依存性をさらに低減します。
実際、私たちの技術を使用すると、通常の損失関数のサンプル複雑さの研究と同様のアーキテクチャ上の依存関係を持つ対照学習設定に多くの境界を生成することができ、それによって対照学習の学習理論と DNN の間のギャップを埋めることができます。
要約(オリジナル)
In this paper, we present generalization bounds for the unsupervised risk in the Deep Contrastive Representation Learning framework, which employs deep neural networks as representation functions. We approach this problem from two angles. On the one hand, we derive a parameter-counting bound that scales with the overall size of the neural networks. On the other hand, we provide a norm-based bound that scales with the norms of neural networks’ weight matrices. Ignoring logarithmic factors, the bounds are independent of $k$, the size of the tuples provided for contrastive learning. To the best of our knowledge, this property is only shared by one other work, which employed a different proof strategy and suffers from very strong exponential dependence on the depth of the network which is due to a use of the peeling technique. Our results circumvent this by leveraging powerful results on covering numbers with respect to uniform norms over samples. In addition, we utilize loss augmentation techniques to further reduce the dependency on matrix norms and the implicit dependence on network depth. In fact, our techniques allow us to produce many bounds for the contrastive learning setting with similar architectural dependencies as in the study of the sample complexity of ordinary loss functions, thereby bridging the gap between the learning theories of contrastive learning and DNNs.
arxiv情報
著者 | Nong Minh Hieu,Antoine Ledent,Yunwen Lei,Cheng Yeaw Ku |
発行日 | 2024-12-16 17:40:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google