要約
Infonceの損失を介した対照学習に関する以前の理論は、特定の仮定の下で、学習した表現が根底に潜在的な要因を回復することを示しました。
これらの理論は、CLが実際にどのように展開されるかの重要な側面を見落としていると主張します。
具体的には、それらはすべての潜伏物にわたって等しい分散を想定しているか、特定の潜伏物が不変に保たれていると想定しています。
ただし、実際には、強い作物などの増強を使用して数ピクセルを使用して、正のペアが生成されることがよくあります。
したがって、より現実的な仮定は、すべての潜在要因がすべての要因にわたって変動の連続性によって変化することです。
Aninfonceを紹介します。これは、この異方性の環境で潜在的要因を明らかに明らかにすることができるInfonceの一般化であり、CLで以前の識別可能性の結果を広く一般化します。
制御された実験での識別可能性の結果を検証し、Aninfonceが下流の精度を犠牲にしているにもかかわらず、CIFAR10およびImagenetで以前に崩壊した情報の回復を増加させることを示します。
最後に、理論的仮定と実際の実装の間の残りの不一致について説明します。
要約(オリジナル)
Prior theory work on Contrastive Learning via the InfoNCE loss showed that, under certain assumptions, the learned representations recover the ground-truth latent factors. We argue that these theories overlook crucial aspects of how CL is deployed in practice. Specifically, they either assume equal variance across all latents or that certain latents are kept invariant. However, in practice, positive pairs are often generated using augmentations such as strong cropping to just a few pixels. Hence, a more realistic assumption is that all latent factors change with a continuum of variability across all factors. We introduce AnInfoNCE, a generalization of InfoNCE that can provably uncover the latent factors in this anisotropic setting, broadly generalizing previous identifiability results in CL. We validate our identifiability results in controlled experiments and show that AnInfoNCE increases the recovery of previously collapsed information in CIFAR10 and ImageNet, albeit at the cost of downstream accuracy. Finally, we discuss the remaining mismatches between theoretical assumptions and practical implementations.
arxiv情報
著者 | Evgenia Rusak,Patrik Reizinger,Attila Juhos,Oliver Bringmann,Roland S. Zimmermann,Wieland Brendel |
発行日 | 2025-04-16 15:26:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google