Guiding Energy-based Models via Contrastive Latent Variables

要約

エネルギーベースモデル(EBM)は、明示的な密度とアーキテクチャの柔軟性の両方を提供する人気のある生成フレームワークであるが、不安定で時間がかかることが多いため、そのトレーニングは困難である。近年、より優れた発散尺度やMCMCサンプリングにおける安定化など、様々な学習技術が開発されているが、EBMとGANなどの他の生成フレームワークとの間には、生成品質の面で大きな隔たりが存在することが多い。本論文では、対照的表現学習(CRL)を用いてEBMを改善するための新規かつ効果的なフレームワークを提案する。具体的には、対比的手法によって学習された表現を、真の基礎となる潜在変数とみなす。この対比的潜在変数は、EBMがデータ構造をよりよく理解するよう導くことができるので、EBMのトレーニングを大幅に改善・加速させることができる。EBMとCRLの共同学習を可能にするために、我々はまた、データと対照的な潜在変数の共同密度を学習するための潜在変数EBMの新しいクラスを設計する。その結果、先行するEBM手法(例えば、変分オートエンコーダや拡散技術を追加的に使用)と比較して、より高速でメモリ効率の良い学習であっても、本方式はより低いFIDスコアを達成することを実験的に実証した。また、明示的な条件付き訓練がなくても、潜在変数型EBMの条件付き生成能力および構成生成能力が追加的に得られることを示す。コードは https://github.com/hankook/CLEL で公開されています。

要約(オリジナル)

An energy-based model (EBM) is a popular generative framework that offers both explicit density and architectural flexibility, but training them is difficult since it is often unstable and time-consuming. In recent years, various training techniques have been developed, e.g., better divergence measures or stabilization in MCMC sampling, but there often exists a large gap between EBMs and other generative frameworks like GANs in terms of generation quality. In this paper, we propose a novel and effective framework for improving EBMs via contrastive representation learning (CRL). To be specific, we consider representations learned by contrastive methods as the true underlying latent variable. This contrastive latent variable could guide EBMs to understand the data structure better, so it can improve and accelerate EBM training significantly. To enable the joint training of EBM and CRL, we also design a new class of latent-variable EBMs for learning the joint density of data and the contrastive latent variable. Our experimental results demonstrate that our scheme achieves lower FID scores, compared to prior-art EBM methods (e.g., additionally using variational autoencoders or diffusion techniques), even with significantly faster and more memory-efficient training. We also show conditional and compositional generation abilities of our latent-variable EBMs as their additional benefits, even without explicit conditional training. The code is available at https://github.com/hankook/CLEL.

arxiv情報

著者 Hankook Lee,Jongheon Jeong,Sejun Park,Jinwoo Shin
発行日 2023-03-06 10:50:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク