要約
このペーパーでは、データ不足のシナリオに固有の課題に対処するために、大規模言語モデル (LLM) と拡散モデル (DM) を活用した効果的なデータ拡張フレームワークを紹介します。
最近、DM により、いくつかのトレーニング画像を補完する合成画像を生成する可能性が開かれました。
ただし、合成画像の多様性を高めると、ターゲット分布外のサンプルが生成されるリスクも高まります。
私たちのアプローチは、LLM を介してテキスト プロンプトに新しい意味情報を埋め込み、実際の画像を視覚的プロンプトとして利用することで、意味論的に豊富な画像を生成することで、この問題に対処します。
生成された画像がターゲット分布内に確実に収まるように、各画像の CLIPScore に基づいてガイダンスの重みを動的に調整し、多様性を制御します。
実験結果は、私たちの方法がターゲット分布への準拠を維持しながら、多様性が強化された合成画像を生成することを示しています。
その結果、いくつかのベンチマークで、私たちのアプローチは数ショット設定でより効率的であることが証明されました。
私たちのコードは https://github.com/kkyuhun94/dalda で入手できます。
要約(オリジナル)
In this paper, we present an effective data augmentation framework leveraging the Large Language Model (LLM) and Diffusion Model (DM) to tackle the challenges inherent in data-scarce scenarios. Recently, DMs have opened up the possibility of generating synthetic images to complement a few training images. However, increasing the diversity of synthetic images also raises the risk of generating samples outside the target distribution. Our approach addresses this issue by embedding novel semantic information into text prompts via LLM and utilizing real images as visual prompts, thus generating semantically rich images. To ensure that the generated images remain within the target distribution, we dynamically adjust the guidance weight based on each image’s CLIPScore to control the diversity. Experimental results show that our method produces synthetic images with enhanced diversity while maintaining adherence to the target distribution. Consequently, our approach proves to be more efficient in the few-shot setting on several benchmarks. Our code is available at https://github.com/kkyuhun94/dalda .
arxiv情報
著者 | Kyuheon Jung,Yongdeuk Seo,Seongwoo Cho,Jaeyoung Kim,Hyun-seok Min,Sungchul Choi |
発行日 | 2024-09-25 14:02:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google