TR0N: Translator Networks for 0-Shot Plug-and-Play Conditional Generation

要約

タイトル:TR0N:0ショットのプラグアンドプレイ条件付き生成のための翻訳ネットワーク

要約:

– TR0Nは、GANやVAEなどの事前に学習された無条件の生成モデルを条件付きモデルに変換するための高度に汎用的なフレームワークを提案します。
– 条件は非常に任意であり、事前に学習された補助モデルだけが必要です。
– たとえば、分類器の支援を受けて無条件のモデルをクラス条件付きのものに変換する方法や、CLIPを活用して無条件のモデルをテキストから画像へのモデルに変換する方法を示します。
– TR0Nは、条件の空間と生成モデルの潜在空間の間を「翻訳」する軽量な確率的マッピングを学習し、生成された潜在空間が所望の条件を満たすデータサンプルに対応するようにします。
– 翻訳された潜在的なサンプルは、Langevinダイナミクスを通じてさらに改善され、より高品質なデータサンプルを得ることができます。
– TR0Nはトレーニングデータや微調整を必要とせず、MS-COCOで0ショットFID値10.9を達成し、競合する代替手法よりもこのメトリックだけでなくサンプリング速度でも優れており、より高い汎用性を維持しています。
– コードはhttps://github.com/layer6ai-labs/tr0nで入手可能です。

要約(オリジナル)

We propose TR0N, a highly general framework to turn pre-trained unconditional generative models, such as GANs and VAEs, into conditional models. The conditioning can be highly arbitrary, and requires only a pre-trained auxiliary model. For example, we show how to turn unconditional models into class-conditional ones with the help of a classifier, and also into text-to-image models by leveraging CLIP. TR0N learns a lightweight stochastic mapping which ‘translates’ between the space of conditions and the latent space of the generative model, in such a way that the generated latent corresponds to a data sample satisfying the desired condition. The translated latent samples are then further improved upon through Langevin dynamics, enabling us to obtain higher-quality data samples. TR0N requires no training data nor fine-tuning, yet can achieve a zero-shot FID of 10.9 on MS-COCO, outperforming competing alternatives not only on this metric, but also in sampling speed — all while retaining a much higher level of generality. Our code is available at https://github.com/layer6ai-labs/tr0n.

arxiv情報

著者 Zhaoyan Liu,Noel Vouitsis,Satya Krishna Gorti,Jimmy Ba,Gabriel Loaiza-Ganem
発行日 2023-04-26 18:00:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク