Style-Guided Inference of Transformer for High-resolution Image Synthesis

要約

Transformer は、過去の値から再帰的に離散値を予測して完全な画像を作成する自己回帰画像合成に非常に適しています。
特に、ベクトル量子化された潜在表現と組み合わせることで、最先端の自己回帰トランスフォーマーがリアルな高解像度画像を表示します。
ただし、離散確率分布から潜在コードをサンプリングすると、出力が予測不能になります。
したがって、目的の出力を取得するには、多くの多様なサンプルを生成する必要があります。
多くのサンプルを繰り返し生成するプロセスを軽減するために、この記事では、トランスフォーマーを再トレーニングせずに、追加条件として、目的の出力であるスタイル イメージを取得することを提案します。
この目的のために、私たちの方法は、スタイルを確率制約に移して事前確率を再調整し、それによって元の事前確率の代わりにターゲット分布を指定します。
したがって、再調整された事前分布から生成されたサンプルは、参照スタイルと同様のスタイルを持ちます。
実際には、追加条件として画像または画像のカテゴリを選択できます。
私たちの定性的評価では、出力の大部分のスタイルが入力スタイルに似ていることを示しています。

要約(オリジナル)

Transformer is eminently suitable for auto-regressive image synthesis which predicts discrete value from the past values recursively to make up full image. Especially, combined with vector quantised latent representation, the state-of-the-art auto-regressive transformer displays realistic high-resolution images. However, sampling the latent code from discrete probability distribution makes the output unpredictable. Therefore, it requires to generate lots of diverse samples to acquire desired outputs. To alleviate the process of generating lots of samples repetitively, in this article, we propose to take a desired output, a style image, as an additional condition without re-training the transformer. To this end, our method transfers the style to a probability constraint to re-balance the prior, thereby specifying the target distribution instead of the original prior. Thus, generated samples from the re-balanced prior have similar styles to reference style. In practice, we can choose either an image or a category of images as an additional condition. In our qualitative assessment, we show that styles of majority of outputs are similar to the input style.

arxiv情報

著者 Jonghwa Yim,Minjae Kim
発行日 2022-10-11 15:21:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク