Variational Distribution Learning for Unsupervised Text-to-Image Generation

要約

トレーニング中に画像のテキストキャプションが利用できない場合、ディープニューラルネットワークに基づくテキストから画像への生成アルゴリズムを提案します。
この作業では、既存の画像キャプション方法を使用してトレーニング画像の疑似グラウンド トゥルース センテンスを単純に生成する代わりに、事前トレーニング済みの CLIP モデルを使用します。
ゼロショット認識タスクでうまく機能します。
画像とテキストの CLIP 埋め込みのペアで条件付けられたデータログの可能性を最大化することにより、テキストから画像への生成モデルを最適化します。
2 つのドメインのデータをより適切に整列させるために、変分推論に基づく原則的な方法を採用します。これは、画像とその CLIP 機能が与えられた場合に、隠しテキストの埋め込みのおおよその事後を効率的に推定します。
実験結果は、提案されたフレームワークが、教師なしおよび半教師ありのテキストから画像への生成設定の下で、既存のアプローチよりも大幅に優れていることを検証しています。

要約(オリジナル)

We propose a text-to-image generation algorithm based on deep neural networks when text captions for images are unavailable during training. In this work, instead of simply generating pseudo-ground-truth sentences of training images using existing image captioning methods, we employ a pretrained CLIP model, which is capable of properly aligning embeddings of images and corresponding texts in a joint space and, consequently, works well on zero-shot recognition tasks. We optimize a text-to-image generation model by maximizing the data log-likelihood conditioned on pairs of image-text CLIP embeddings. To better align data in the two domains, we employ a principled way based on a variational inference, which efficiently estimates an approximate posterior of the hidden text embedding given an image and its CLIP feature. Experimental results validate that the proposed framework outperforms existing approaches by large margins under unsupervised and semi-supervised text-to-image generation settings.

arxiv情報

著者 Minsoo Kang,Doyup Lee,Jiseob Kim,Saehoon Kim,Bohyung Han
発行日 2023-03-28 16:18:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク