要約
コンピュータビジョンの分野において、正確でロバストな機械学習モデルを学習するためには、高品質のラベル付き画像データセットを生成することが極めて重要である。しかしながら、実際の画像に手作業でラベル付けを行うプロセスは、時間とコストがかかることが多い。データセット生成に関連するこのような課題に対処するために、我々はラベル付き画像データセットを効率的に作成するための安定拡散モデルの力を利用したシンプルで適応性の高いアプローチである「DiffuGen」を紹介する。安定拡散モデルを活用することで、我々のアプローチは生成されたデータセットの品質を保証するだけでなく、ラベル生成のための汎用的なソリューションを提供する。本論文では、DiffuGenの背後にある方法論を紹介する。DiffuGenは拡散モデルの機能と教師なしと教師ありの2つの異なるラベリング技術を組み合わせたものである。DiffuGenの特徴は、適応可能な画像生成のためのプロンプトテンプレートと、拡散モデルの能力を高めるためのテキスト反転を採用していることである。
要約(オリジナル)
Generating high-quality labeled image datasets is crucial for training accurate and robust machine learning models in the field of computer vision. However, the process of manually labeling real images is often time-consuming and costly. To address these challenges associated with dataset generation, we introduce ‘DiffuGen,’ a simple and adaptable approach that harnesses the power of stable diffusion models to create labeled image datasets efficiently. By leveraging stable diffusion models, our approach not only ensures the quality of generated datasets but also provides a versatile solution for label generation. In this paper, we present the methodology behind DiffuGen, which combines the capabilities of diffusion models with two distinct labeling techniques: unsupervised and supervised. Distinctively, DiffuGen employs prompt templating for adaptable image generation and textual inversion to enhance diffusion model capabilities.
arxiv情報
著者 | Michael Shenoda,Edward Kim |
発行日 | 2023-09-01 04:42:03+00:00 |
arxivサイト | arxiv_id(pdf) |