Controllable Image Generation With Composed Parallel Token Prediction

要約

構成画像の生成では、2 つ以上の入力概念がトレーニング中に必ずしも一緒に現れるとは限らない状況でモデルを適切に一般化する必要があります (構成一般化)。
拡散モデルやエネルギーベースのモデルなどの連続サンプリングプロセスの合成による合成画像生成の最近の進歩にもかかわらず、離散生成プロセスの合成は未解決の課題のままであり、効率、解釈可能性、単純さの向上が期待されています。
この目的を達成するために、潜在空間の離散生成モデルの対数確率出力を合成することにより、画像を制御可能な条件付き生成するための定式化を提案します。
当社のアプローチは、VQ-VAE および VQ-GAN と併用すると、3 つの異なる設定 (FFHQ、位置 CLEVR、および関係 CLEVR) で最先端の生成精度を達成しながら、競争力のある Fr\’echet Inception Distance (FID) スコアを達成します。

私たちの方法では、調査した設定全体で $80.71\%$ の平均生成精度を達成しました。
また、私たちの方法は、9 回の実験中 7 回の実験で FID の点で次善のアプローチ (精度でランク付け) を上回り、平均 FID は $24.23$ (平均改善率は $-9.58$) でした。
さらに、私たちの方法は、ハードウェア上の同等の連続合成方法と比較して $2.3\time$ から $12\times$ の高速化を実現します。
私たちの方法は、概念の重み付けによって解釈可能な制御性の次元を提供することに加えて、トレーニング データの外側にある入力条件の組み合わせ (たとえば、画像あたりのオブジェクト数の増加など) にも一般化できることがわかりました。
さらに、私たちのアプローチが、微調整なしでオープンな事前トレーニング済みの離散テキストから画像へのモデルに容易に適用でき、テキストから画像への生成をきめ細かく制御できることを示します。

要約(オリジナル)

Compositional image generation requires models to generalise well in situations where two or more input concepts do not necessarily appear together in training (compositional generalisation). Despite recent progress in compositional image generation via composing continuous sampling processes such as diffusion and energy-based models, composing discrete generative processes has remained an open challenge, with the promise of providing improvements in efficiency, interpretability and simplicity. To this end, we propose a formulation for controllable conditional generation of images via composing the log-probability outputs of discrete generative models of the latent space. Our approach, when applied alongside VQ-VAE and VQ-GAN, achieves state-of-the-art generation accuracy in three distinct settings (FFHQ, Positional CLEVR and Relational CLEVR) while attaining competitive Fr\’echet Inception Distance (FID) scores. Our method attains an average generation accuracy of $80.71\%$ across the studied settings. Our method also outperforms the next-best approach (ranked by accuracy) in terms of FID in seven out of nine experiments, with an average FID of $24.23$ (an average improvement of $-9.58$). Furthermore, our method offers a $2.3\times$ to $12\times$ speedup over comparable continuous compositional methods on our hardware. We find that our method can generalise to combinations of input conditions that lie outside the training data (e.g. more objects per image) in addition to offering an interpretable dimension of controllability via concept weighting. We further demonstrate that our approach can be readily applied to an open pre-trained discrete text-to-image model without any fine-tuning, allowing for fine-grained control of text-to-image generation.

arxiv情報

著者 Jamie Stirling,Noura Al-Moubayed
発行日 2024-05-10 15:27:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク