要約
表現学習と生成モデリングは視覚データを理解しようとしていますが、両方のドメインを統合することは未踏のままです。
最近の統一された自己監視学習(SSL)方法は、両方のパラダイム間のギャップを埋め始めました。
ただし、セマンティックトークンの再構築のみに依存しているため、トレーニング中に外部トークン剤が必要です。
この作業では、相乗的コントラシティブな再構成の目的を組み込んだ新しい統一されたSSLフレームワークであるSorcenを紹介します。
私たちの対照的な目的「エコーコントラスト」は、ソーセンの生成能力を活用し、トレーニング中の追加の画像作物や増強の必要性を排除します。
Sorcenは、セマンティックトークンスペースにエコーサンプルを「生成」し、対照的なポジティブペアを形成します。
Sorcenは、事前に計算されたトークンでのみ動作し、トレーニング中のオンライントークン変換の必要性を排除し、それにより計算オーバーヘッドを大幅に削減します。
ImagENET-1Kの広範な実験は、Sorcenが以前の統合SSL SOTAを0.4%、1.48 FID、1.76%、および1.53%よりも優れていることを示しています。
さらに、Sorcenは、線形プロービングで以前のシングルクラップMIM SOTAを上回り、無条件の画像生成でSOTAパフォーマンスを達成し、統一されたSSLモデルの大幅な改善とブレークスルーを強調しています。
要約(オリジナル)
While representation learning and generative modeling seek to understand visual data, unifying both domains remains unexplored. Recent Unified Self-Supervised Learning (SSL) methods have started to bridge the gap between both paradigms. However, they rely solely on semantic token reconstruction, which requires an external tokenizer during training — introducing a significant overhead. In this work, we introduce Sorcen, a novel unified SSL framework, incorporating a synergic Contrastive-Reconstruction objective. Our Contrastive objective, ‘Echo Contrast’, leverages the generative capabilities of Sorcen, eliminating the need for additional image crops or augmentations during training. Sorcen ‘generates’ an echo sample in the semantic token space, forming the contrastive positive pair. Sorcen operates exclusively on precomputed tokens, eliminating the need for an online token transformation during training, thereby significantly reducing computational overhead. Extensive experiments on ImageNet-1k demonstrate that Sorcen outperforms the previous Unified SSL SoTA by 0.4%, 1.48 FID, 1.76%, and 1.53% on linear probing, unconditional image generation, few-shot learning, and transfer learning, respectively, while being 60.8% more efficient. Additionally, Sorcen surpasses previous single-crop MIM SoTA in linear probing and achieves SoTA performance in unconditional image generation, highlighting significant improvements and breakthroughs in Unified SSL models.
arxiv情報
著者 | Imanol G. Estepa,Jesús M. Rodríguez-de-Vera,Ignacio Sarasúa,Bhalaji Nagarajan,Petia Radeva |
発行日 | 2025-03-20 15:09:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google