要約
画像生成では、複数の潜在変数生成モデル (MLVGM) が複数の潜在変数を使用して、全体的な特性からより詳細で局所的な詳細 (例: StyleGAN、NVAE) まで最終画像を徐々に形成し、多様なアプリケーション向けの強力なツールとして登場します。
しかし、それらの生成ダイナミクスと潜在変数の利用は、経験的にのみ観察されたままです。
この研究では、相互情報 (MI) をガイド指標として使用して、MLVGM の各潜在変数の影響を系統的に定量化する新しいフレームワークを提案します。
私たちの分析により、十分に活用されていない変数が明らかになり、下流アプリケーションでの MLVGM の使用をガイドできます。
この基盤を利用して、自己教師あり対比表現学習 (SSCRL) 用の合成データを生成する方法を紹介します。
MLVGM の階層的でもつれのない変数を活用し、以前の分析に基づいて、実際のデータに完全に依存することなく、カスタマイズされた潜在的な摂動を適用して SSCRL の多様なビューを生成します。
さらに、連続サンプリング (CS) 戦略を導入します。この戦略では、ジェネレーターが SSCRL トレーニング中に新しいサンプルを動的に作成し、データの変動性を大幅に高めます。
私たちの包括的な実験は、これらの貢献の有効性を実証し、MLVGM が生成したビューが実際のデータから生成されたビューと同等、またはそれを超えていることを示しています。
この研究は、MLVGM を理解して活用するための原則に基づいたアプローチを確立し、生成モデリングと自己教師あり学習の両方を前進させます。
要約(オリジナル)
In image generation, Multiple Latent Variable Generative Models (MLVGMs) employ multiple latent variables to gradually shape the final images, from global characteristics to finer and local details (e.g., StyleGAN, NVAE), emerging as powerful tools for diverse applications. Yet their generative dynamics and latent variable utilization remain only empirically observed. In this work, we propose a novel framework to systematically quantify the impact of each latent variable in MLVGMs, using Mutual Information (MI) as a guiding metric. Our analysis reveals underutilized variables and can guide the use of MLVGMs in downstream applications. With this foundation, we introduce a method for generating synthetic data for Self-Supervised Contrastive Representation Learning (SSCRL). By leveraging the hierarchical and disentangled variables of MLVGMs, and guided by the previous analysis, we apply tailored latent perturbations to produce diverse views for SSCRL, without relying on real data altogether. Additionally, we introduce a Continuous Sampling (CS) strategy, where the generator dynamically creates new samples during SSCRL training, greatly increasing data variability. Our comprehensive experiments demonstrate the effectiveness of these contributions, showing that MLVGMs’ generated views compete on par with or even surpass views generated from real data. This work establishes a principled approach to understanding and exploiting MLVGMs, advancing both generative modeling and self-supervised learning.
arxiv情報
著者 | Dario Serez,Marco Cristani,Alessio Del Bue,Vittorio Murino,Pietro Morerio |
発行日 | 2025-01-23 14:46:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google