Self-conditioned Image Generation via Generating Representations

要約

この論文は、クラス無条件画像の新しいベンチマークを設定する、シンプルかつ効果的な画像生成フレームワークである $\textbf{R}$epresentation-$\textbf{C}$onditioned image $\textbf{G}$eneration (RCG) を紹介します。
世代。
RCG は人間による注釈を条件としません。
代わりに、事前トレーニングされたエンコーダーを使用して画像分布からマッピングされた自己教師ありの表現分布を条件とします。
生成中、RCG は表現拡散モデル (RDM) を使用してそのような表現分布からサンプリングし、ピクセル ジェネレーターを使用して、サンプリングされた表現に基づいて条件付けされた画像ピクセルを作成します。
このような設計により、生成プロセス中に実質的なガイダンスが提供され、高品質の画像が生成されます。
ImageNet 256$\times$256 でテストしたところ、RCG は Frechet インセプション ディスタンス (FID) 3.31、インセプション スコア (IS) 253.4 を達成しました。
これらの結果は、クラス無条件イメージ生成の最先端技術を大幅に改善するだけでなく、クラス条件付きイメージ生成における現在の主要な方法に匹敵し、これら 2 つのタスク間の長年にわたるパフォーマンスのギャップを埋めます。
コードは https://github.com/LTH14/rcg で入手できます。

要約(オリジナル)

This paper presents $\textbf{R}$epresentation-$\textbf{C}$onditioned image $\textbf{G}$eneration (RCG), a simple yet effective image generation framework which sets a new benchmark in class-unconditional image generation. RCG does not condition on any human annotations. Instead, it conditions on a self-supervised representation distribution which is mapped from the image distribution using a pre-trained encoder. During generation, RCG samples from such representation distribution using a representation diffusion model (RDM), and employs a pixel generator to craft image pixels conditioned on the sampled representation. Such a design provides substantial guidance during the generative process, resulting in high-quality image generation. Tested on ImageNet 256$\times$256, RCG achieves a Frechet Inception Distance (FID) of 3.31 and an Inception Score (IS) of 253.4. These results not only significantly improve the state-of-the-art of class-unconditional image generation but also rival the current leading methods in class-conditional image generation, bridging the long-standing performance gap between these two tasks. Code is available at https://github.com/LTH14/rcg.

arxiv情報

著者 Tianhong Li,Dina Katabi,Kaiming He
発行日 2023-12-06 18:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク