Semantic-Guided Generative Image Augmentation Method with Diffusion Models for Image Classification

要約

既存の画像拡張方法は、摂動ベースの方法と生成方法の 2 つのカテゴリで構成されます。
摂動ベースの方法では、事前に定義された摂動を適用して元の画像を拡張しますが、画像は局所的にのみ変更されるため、画像の多様性が欠如します。
対照的に、生成手法は拡張画像に画像の多様性をもたらしますが、意味の一貫性が維持されない可能性があり、その結果、元の画像の本質的な意味が誤って変更される可能性があります。
拡張画像における画像の多様性と意味的一貫性のバランスをとるために、画像分類用の拡散モデルを使用した意味ガイド型生成画像拡張手法である SGID を提案します。
具体的には、SGID は拡散モデルを採用して、優れた画像多様性を持つ拡張画像を生成します。
さらに重要なことは、SGID は、拡張画像と元の画像の間で意味の一貫性を維持するためのガイドラインとして画像ラベルとキャプションを採用します。
実験結果は、SGID が、ResNet-50 (ゼロから) で 1.72%、ViT (ImageNet-21k) で 0.33%、CLIP-ViT (LAION-2B) で 0.14% 、最良の拡張ベースラインを上回るパフォーマンスを示していることを示しています。
さらに、SGID を他の画像拡張ベースラインと組み合わせることで、全体のパフォーマンスをさらに向上させることができます。
私たちは、人間による定量的評価と自動評価、および定性的なケーススタディを通じて、SGID の意味的一貫性と画像の多様性を実証します。

要約(オリジナル)

Existing image augmentation methods consist of two categories: perturbation-based methods and generative methods. Perturbation-based methods apply pre-defined perturbations to augment an original image, but only locally vary the image, thus lacking image diversity. In contrast, generative methods bring more image diversity in the augmented images but may not preserve semantic consistency, thus incorrectly changing the essential semantics of the original image. To balance image diversity and semantic consistency in augmented images, we propose SGID, a Semantic-guided Generative Image augmentation method with Diffusion models for image classification. Specifically, SGID employs diffusion models to generate augmented images with good image diversity. More importantly, SGID takes image labels and captions as guidance to maintain semantic consistency between the augmented and original images. Experimental results show that SGID outperforms the best augmentation baseline by 1.72% on ResNet-50 (from scratch), 0.33% on ViT (ImageNet-21k), and 0.14% on CLIP-ViT (LAION-2B). Moreover, SGID can be combined with other image augmentation baselines and further improves the overall performance. We demonstrate the semantic consistency and image diversity of SGID through quantitative human and automated evaluations, as well as qualitative case studies.

arxiv情報

著者 Bohan Li,Xiao Xu,Xinghao Wang,Yutai Hou,Yunlong Feng,Feng Wang,Xuanliang Zhang,Qingfu Zhu,Wanxiang Che
発行日 2024-01-18 14:03:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク