要約
教師なし視覚表現学習の最近の進歩において、結合埋め込み予測アーキテクチャ (JEPA) は、革新的なマスキング戦略を通じてラベルなし画像から視覚特徴を抽出するための重要な方法として浮上しました。
その成功にもかかわらず、2 つの主要な限界が確認されています。1 つは全体の崩壊を防ぐ点での I-JEPA の指数移動平均 (EMA) の無力さ、もう 1 つはパッチ表現の平均を正確に学習する点での I-JEPA 予測の不十分さです。
これらの課題に対処するために、この研究では、画像ベースの結合埋め込み予測アーキテクチャと分散不変共分散正則化 (VICReg) 戦略を統合する新しいフレームワーク、すなわち C-JEPA (Contrastive-JEPA) を導入します。
この統合は、分散/共分散を効果的に学習して全体の崩壊を防ぎ、拡張ビューの平均値の不変性を確保することで、特定された制限を克服するように設計されています。
実証的および理論的評価を通じて、私たちの研究は、C-JEPA が視覚表現学習の安定性と質を大幅に向上させることを実証しています。
ImageNet-1K データセットで事前トレーニングすると、C-JEPA は線形プローブと微調整パフォーマンス メトリクスの両方で迅速かつ改善された収束を示します。
要約(オリジナル)
In recent advancements in unsupervised visual representation learning, the Joint-Embedding Predictive Architecture (JEPA) has emerged as a significant method for extracting visual features from unlabeled imagery through an innovative masking strategy. Despite its success, two primary limitations have been identified: the inefficacy of Exponential Moving Average (EMA) from I-JEPA in preventing entire collapse and the inadequacy of I-JEPA prediction in accurately learning the mean of patch representations. Addressing these challenges, this study introduces a novel framework, namely C-JEPA (Contrastive-JEPA), which integrates the Image-based Joint-Embedding Predictive Architecture with the Variance-Invariance-Covariance Regularization (VICReg) strategy. This integration is designed to effectively learn the variance/covariance for preventing entire collapse and ensuring invariance in the mean of augmented views, thereby overcoming the identified limitations. Through empirical and theoretical evaluations, our work demonstrates that C-JEPA significantly enhances the stability and quality of visual representation learning. When pre-trained on the ImageNet-1K dataset, C-JEPA exhibits rapid and improved convergence in both linear probing and fine-tuning performance metrics.
arxiv情報
| 著者 | Shentong Mo,Shengbang Tong | 
| 発行日 | 2024-10-25 13:48:12+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
