要約
無条件生成–人間が注釈したラベルに依存せずにデータ分布をモデル化する問題–は、生成モデルにおける長年にわたる基本的な課題であり、大規模なラベルなしデータから学習する可能性を生み出している。これまでの文献では、無条件モデルの生成品質は、条件モデルの生成品質よりもはるかに劣っている。このギャップは、ラベルによって提供される意味情報の欠如に起因する。本研究では、自己教師付きエンコーダによって生成される表現空間に意味的表現を生成することで、このギャップを埋めることができることを示す。これらの表現は画像生成器の条件付けに利用できる。表現条件付き生成(Representation-Conditioned Generation: RCG)と呼ばれるこのフレームワークは、ラベルを用いない無条件生成問題に対する効果的な解決策を提供する。包括的な実験を通じて、RCGが無条件生成の品質を大幅に向上させることを確認した。例えば、ImageNet 256×256において、2.15という最新のFIDを達成し、以前の最高であった5.91を相対的に64%大幅に削減した。我々の無条件の結果は、主要なクラス条件付き結果と同じ階層に位置している。我々は、これらの勇気づけられる観察が、無条件生成の基本的な問題に対するコミュニティの注目を集めることを願っている。コードはhttps://github.com/LTH14/rcg。
要約(オリジナル)
Unconditional generation — the problem of modeling data distribution without relying on human-annotated labels — is a long-standing and fundamental challenge in generative models, creating a potential of learning from large-scale unlabeled data. In the literature, the generation quality of an unconditional method has been much worse than that of its conditional counterpart. This gap can be attributed to the lack of semantic information provided by labels. In this work, we show that one can close this gap by generating semantic representations in the representation space produced by a self-supervised encoder. These representations can be used to condition the image generator. This framework, called Representation-Conditioned Generation (RCG), provides an effective solution to the unconditional generation problem without using labels. Through comprehensive experiments, we observe that RCG significantly improves unconditional generation quality: e.g., it achieves a new state-of-the-art FID of 2.15 on ImageNet 256×256, largely reducing the previous best of 5.91 by a relative 64%. Our unconditional results are situated in the same tier as the leading class-conditional ones. We hope these encouraging observations will attract the community’s attention to the fundamental problem of unconditional generation. Code is available at https://github.com/LTH14/rcg.
arxiv情報
著者 | Tianhong Li,Dina Katabi,Kaiming He |
発行日 | 2024-11-01 14:48:57+00:00 |
arxivサイト | arxiv_id(pdf) |