Linear combinations of Gaussian latents in generative models: interpolation and beyond

要約

生成モデルからのサンプリングは、データ合成や補強のようなアプリケーションにとって重要なツールとなっている。拡散、フローマッチング、連続正規化フローは、様々なモダリティにわたって有効性を示しており、生成のためにガウス潜在変数に依存している。生成プロセスに対してさらなる制御を必要とする検索ベースまたは創造的なアプリケーションでは、潜在変数を直接操作することが一般的になっている。しかし、このような操作(例えば、補間や低次元表現の形成)を行うための既存のアプローチは、特殊な場合にのみうまく機能するか、ネットワークやデータモダリティに特有である。我々は、実装が容易でありながら、最近の洗練された手法を凌駕する汎用的な補間手法として、ガウス変数の組み合わせ(COG)を提案する。さらに、COGは、潜在変数の一般的な線形結合を形成するという、より広範な課題に自然に対処し、潜在空間の部分空間の構築を可能にし、高次元オブジェクトの表現力豊かな低次元空間の作成を劇的に単純化する。

要約(オリジナル)

Sampling from generative models has become a crucial tool for applications like data synthesis and augmentation. Diffusion, Flow Matching and Continuous Normalizing Flows have shown effectiveness across various modalities, and rely on Gaussian latent variables for generation. For search-based or creative applications that require additional control over the generation process, it has become common to manipulate the latent variable directly. However, existing approaches for performing such manipulations (e.g. interpolation or forming low-dimensional representations) only work well in special cases or are network or data-modality specific. We propose Combination of Gaussian variables (COG) as a general purpose interpolation method that is easy to implement yet outperforms recent sophisticated methods. Moreover, COG naturally addresses the broader task of forming general linear combinations of latent variables, allowing the construction of subspaces of the latent space, dramatically simplifying the creation of expressive low-dimensional spaces of high-dimensional objects.

arxiv情報

著者 Erik Bodin,Carl Henrik Ek,Henry Moss
発行日 2024-10-04 15:32:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML パーマリンク