The Right Losses for the Right Gains: Improving the Semantic Consistency of Deep Text-to-Image Generation with Distribution-Sensitive Losses

要約

テキストから画像への生成のためのディープ ニューラル ネットワークをトレーニングする際の大きな課題の 1 つは、最も一般的なデータセット内の各画像のグラウンド トゥルース キャプション間の言語的な大きな矛盾です。
このようなキャプション内の単語の選択に大きな違いがあるため、合成画像は互いに意味的に類似せず、また、それらのグラウンドトゥルースの対応物とも意味的に似ていない結果になります。
さらに、既存のモデルは、画像のきめ細かい詳細を生成できなかったり、膨大な数のパラメータを必要としたりして、テキストから画像への合成が非効率的になってしまいます。
文献のこのギャップを埋めるために、我々は 2 つの損失関数の新しい組み合わせによる対照学習アプローチを使用することを提案します。同じキャプションの生成された画像間の意味的一貫性を高めるための偽から偽の損失と、偽から本物への損失です。
本物の画像と偽の画像の配布の間のギャップを減らすため。
このアプローチを 2 つのベースライン モデル、SSAGAN と AttnGAN (画像のきめ細かい詳細を強化するスタイル ブロックを使用) でテストしました。結果は、CUB データセットのスタイル ブロックを使用した AttnGAN でのアプローチが定性的な結果を向上させることを示しています。
さらに、困難な COCO データセットにおいて、私たちのアプローチは最先端の Lafite モデルに対して競合する結果を達成し、SSAGAN モデルの FID スコアを 44 上回りました。

要約(オリジナル)

One of the major challenges in training deep neural networks for text-to-image generation is the significant linguistic discrepancy between ground-truth captions of each image in most popular datasets. The large difference in the choice of words in such captions results in synthesizing images that are semantically dissimilar to each other and to their ground-truth counterparts. Moreover, existing models either fail to generate the fine-grained details of the image or require a huge number of parameters that renders them inefficient for text-to-image synthesis. To fill this gap in the literature, we propose using the contrastive learning approach with a novel combination of two loss functions: fake-to-fake loss to increase the semantic consistency between generated images of the same caption, and fake-to-real loss to reduce the gap between the distributions of real images and fake ones. We test this approach on two baseline models: SSAGAN and AttnGAN (with style blocks to enhance the fine-grained details of the images.) Results show that our approach improves the qualitative results on AttnGAN with style blocks on the CUB dataset. Additionally, on the challenging COCO dataset, our approach achieves competitive results against the state-of-the-art Lafite model, outperforms the FID score of SSAGAN model by 44.

arxiv情報

著者 Mahmoud Ahmed,Omer Moussa,Ismail Shaheen,Mohamed Abdelfattah,Amr Abdalla,Marwan Eid,Hesham Eraqi,Mohamed Moustafa
発行日 2023-12-18 00:05:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク