Data Extrapolation for Text-to-image Generation on Small Datasets

要約

テキストから画像への生成では、高品質の画像を合成するために大量のトレーニング データが必要です。
トレーニング データを増強するために、これまでの方法はトリミング、反転、混合などのデータ補間に依存していましたが、新しい情報を導入することができず、わずかな改善しか得られませんでした。
この論文では、線形外挿を使用したテキストから画像への生成のための新しいデータ拡張方法を提案します。
具体的には、テキスト特徴のみに線形外挿を適用し、新しい画像データは検索エンジンによってインターネットから取得されます。
新しいテキストと画像のペアの信頼性を高めるために、取得した画像を精製するための 2 つの外れ値検出器を設計しました。
外挿に基づいて、元のデータセットよりも数十倍大きいトレーニング サンプルを構築し、その結果、テキストから画像へのパフォーマンスが大幅に向上しました。
さらに、スコア推定を改良するための NULL ガイダンスを提案し、テキスト情報を融合するために再帰的アフィン変換を適用します。
私たちのモデルは、CUB、Oxford、COCO データセットで 7.91、9.52、および 5.00 の FID スコアを達成しました。
コードとデータは GitHub (https://github.com/senmaoy/RAT-Diffusion) で入手できます。

要約(オリジナル)

Text-to-image generation requires large amount of training data to synthesizing high-quality images. For augmenting training data, previous methods rely on data interpolations like cropping, flipping, and mixing up, which fail to introduce new information and yield only marginal improvements. In this paper, we propose a new data augmentation method for text-to-image generation using linear extrapolation. Specifically, we apply linear extrapolation only on text feature, and new image data are retrieved from the internet by search engines. For the reliability of new text-image pairs, we design two outlier detectors to purify retrieved images. Based on extrapolation, we construct training samples dozens of times larger than the original dataset, resulting in a significant improvement in text-to-image performance. Moreover, we propose a NULL-guidance to refine score estimation, and apply recurrent affine transformation to fuse text information. Our model achieves FID scores of 7.91, 9.52 and 5.00 on the CUB, Oxford and COCO datasets. The code and data will be available on GitHub (https://github.com/senmaoy/RAT-Diffusion).

arxiv情報

著者 Senmao Ye,Fei Liu
発行日 2024-10-02 15:08:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク