Text to Image Synthesis using Stacked Conditional Variational Autoencoders and Conditional Generative Adversarial Networks

要約

テキスト記述からリアルな画像を合成することは、コンピューター ビジョンにおける大きな課題です。
現在のテキストから画像への合成手法では、テキスト記述子を表す高解像度画像を生成するには不十分です。
既存の研究のほとんどは、Generative Adversarial Networks (GAN) または Variational Auto Encoders (VAE) に依存しています。
GAN はより鮮明な画像を生成する機能を備えていますが、出力の多様性に欠けています。一方、VAE はさまざまな範囲の出力を生成するのに優れていますが、生成された画像はしばしばぼやけています。
GAN と VAE の両方の相対的な利点を考慮して、テキスト記述に基づいて条件付けされた画像を合成するための新しいスタックされた条件付き VAE (CVAE) および条件付き GAN (CGAN) ネットワーク アーキテクチャを提案しました。
この調査では、Conditional VAE を最初のジェネレーターとして使用して、テキスト記述子の概要を作成します。
この第 1 段階からの高レベルのスケッチ出力とテキスト記述子は、条件付き GAN ネットワークへの入力として使用されます。
第 2 段階の GAN は、256×256 の高解像度画像を生成します。
提案されたアーキテクチャは、結果を達成するために条件付き GAN ネットワーク上の条件付けの拡張と残余ブロックの恩恵を受けます。
CUB と Oxford-102 データセットを使用して複数の実験が行われ、提案されたアプローチの結果が StackGAN などの最先端技術と比較されます。
実験は、提案された方法がテキスト説明に基づいて調整された高解像度画像を生成し、両方のデータセットを使用してインセプションとフレシェインセプションスコアに基づいて競争力のある結果をもたらすことを示しています

要約(オリジナル)

Synthesizing a realistic image from textual description is a major challenge in computer vision. Current text to image synthesis approaches falls short of producing a highresolution image that represent a text descriptor. Most existing studies rely either on Generative Adversarial Networks (GANs) or Variational Auto Encoders (VAEs). GANs has the capability to produce sharper images but lacks the diversity of outputs, whereas VAEs are good at producing a diverse range of outputs, but the images generated are often blurred. Taking into account the relative advantages of both GANs and VAEs, we proposed a new stacked Conditional VAE (CVAE) and Conditional GAN (CGAN) network architecture for synthesizing images conditioned on a text description. This study uses Conditional VAEs as an initial generator to produce a high-level sketch of the text descriptor. This high-level sketch output from first stage and a text descriptor is used as an input to the conditional GAN network. The second stage GAN produces a 256×256 high resolution image. The proposed architecture benefits from a conditioning augmentation and a residual block on the Conditional GAN network to achieve the results. Multiple experiments were conducted using CUB and Oxford-102 dataset and the result of the proposed approach is compared against state-ofthe-art techniques such as StackGAN. The experiments illustrate that the proposed method generates a high-resolution image conditioned on text descriptions and yield competitive results based on Inception and Frechet Inception Score using both datasets

arxiv情報

著者 Haileleol Tibebu,Aadil Malik,Varuna De Silva
発行日 2022-08-15 13:20:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク