要約
さまざまな自己監視学習(VSSL)を提示します。これは、変動的推論と自己監視学習を組み合わせて、効率的でデコーダーフリーの表現学習を可能にするための新しいフレームワークです。
デコーダーを介して入力再構成に依存する従来のvaesとは異なり、VSSLは2つのエンコーダーをガウス出力と対称的に結合します。
モメンタムアップデートされたティーチャーネットワークは、動的でデータ依存性の事前を定義しますが、学生エンコーダーは拡張ビューからおおよその後方を生成します。
エルボの再建項は、ガウスKL発散の分析的扱いやすさを維持するクロスビュー除去目標に置き換えられます。
さらに、高次元の潜在スペースでのセマンティックアライメントを強化するために、KLおよび対数尤度用語のコサインベースの製剤を導入します。
CIFAR-10、CIFAR-100、およびImagenet-100の実験は、VSSLがBYOLやMoCo V3を含む主要な自己監視方法に対して競争力のあるまたは優れたパフォーマンスを達成することを示しています。
VSSLは、生成的再構成なしに転送可能な表現を学習するためのスケーラブルな確率的に根拠のあるアプローチを提供し、変分モデリングと現代の自己監視技術の間のギャップを埋めます。
要約(オリジナル)
We present Variational Self-Supervised Learning (VSSL), a novel framework that combines variational inference with self-supervised learning to enable efficient, decoder-free representation learning. Unlike traditional VAEs that rely on input reconstruction via a decoder, VSSL symmetrically couples two encoders with Gaussian outputs. A momentum-updated teacher network defines a dynamic, data-dependent prior, while the student encoder produces an approximate posterior from augmented views. The reconstruction term in the ELBO is replaced with a cross-view denoising objective, preserving the analytical tractability of Gaussian KL divergence. We further introduce cosine-based formulations of KL and log-likelihood terms to enhance semantic alignment in high-dimensional latent spaces. Experiments on CIFAR-10, CIFAR-100, and ImageNet-100 show that VSSL achieves competitive or superior performance to leading self-supervised methods, including BYOL and MoCo V3. VSSL offers a scalable, probabilistically grounded approach to learning transferable representations without generative reconstruction, bridging the gap between variational modeling and modern self-supervised techniques.
arxiv情報
著者 | Mehmet Can Yavuz,Berrin Yanikoglu |
発行日 | 2025-04-24 15:50:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google