Improved Masked Image Generation with Token-Critic

要約

近年、非自己回帰型生成変換器は、自己回帰型生成変換器と比較して、桁違いに高速なサンプリングが可能であり、素晴らしい画像生成性能を示す。しかし、視覚的トークンの真の結合分布からの最適な並列サンプリングは、未解決の課題のままである。本論文では、非自己回帰型生成変換器のサンプリングをガイドする補助モデルであるトークン-クリティックを紹介する。マスクされ再構成された実画像が与えられると、トークン-クリティックのモデルは、どの視覚的トークンが元画像に属し、どれが生成変換器によってサンプリングされたかを区別するために学習される。非自己回帰的な反復サンプリングの間、トークン-クリティックは、どのトークンを受け入れ、どれを拒否して再サンプリングするかを選択するために使用されます。Token-Criticと組み合わせることで、最先端の生成変換器はその性能を大幅に向上させ、困難なクラス条件付きImageNet生成において、生成画像の品質と多様性のトレードオフの観点から、最近の拡散モデルやGANを凌駕する性能を示す。

要約(オリジナル)

Non-autoregressive generative transformers recently demonstrated impressive image generation performance, and orders of magnitude faster sampling than their autoregressive counterparts. However, optimal parallel sampling from the true joint distribution of visual tokens remains an open challenge. In this paper we introduce Token-Critic, an auxiliary model to guide the sampling of a non-autoregressive generative transformer. Given a masked-and-reconstructed real image, the Token-Critic model is trained to distinguish which visual tokens belong to the original image and which were sampled by the generative transformer. During non-autoregressive iterative sampling, Token-Critic is used to select which tokens to accept and which to reject and resample. Coupled with Token-Critic, a state-of-the-art generative transformer significantly improves its performance, and outperforms recent diffusion models and GANs in terms of the trade-off between generated image quality and diversity, in the challenging class-conditional ImageNet generation.

arxiv情報

著者 José Lezama,Huiwen Chang,Lu Jiang,Irfan Essa
発行日 2022-09-09 17:57:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク