Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model

要約

Text-to-image (T2I) 生成モデルは、写真のようにリアルな画像の作成を可能にし、多数のアプリケーションを生み出す強力なツールとして最近登場しました。
ただし、T2I モデルを基本的な画像分類タスクに効果的に統合することは未解決の問題のままです。
画像分類のパフォーマンスを強化する一般的な戦略は、T2I モデルによって生成された合成画像を使用してトレーニング セットを強化することです。
この研究では、現在の生成技術と従来のデータ拡張技術の両方の欠点を詳しく調べます。
私たちの分析により、これらの方法では、ドメイン固有の概念に対して忠実 (前景オブジェクトの観点から) かつ多様性のある画像 (背景コンテキストの観点から) を生成するのに苦労していることが明らかになりました。
この課題に取り組むために、Diff-Mix (https://github.com/Zhicaiwww/Diff-Mix) として知られる革新的なクラス間データ拡張手法を導入しました。これは、クラス間で画像変換を実行することでデータセットを強化します。
私たちの実証結果は、Diff-Mix が忠実性と多様性の間でより良いバランスを実現し、ドメイン固有のデータセットに対する少数ショット分類、従来型分類、ロングテール分類など、さまざまな画像分類シナリオ全体でパフォーマンスの顕著な向上につながることを示しています。

要約(オリジナル)

Text-to-image (T2I) generative models have recently emerged as a powerful tool, enabling the creation of photo-realistic images and giving rise to a multitude of applications. However, the effective integration of T2I models into fundamental image classification tasks remains an open question. A prevalent strategy to bolster image classification performance is through augmenting the training set with synthetic images generated by T2I models. In this study, we scrutinize the shortcomings of both current generative and conventional data augmentation techniques. Our analysis reveals that these methods struggle to produce images that are both faithful (in terms of foreground objects) and diverse (in terms of background contexts) for domain-specific concepts. To tackle this challenge, we introduce an innovative inter-class data augmentation method known as Diff-Mix (https://github.com/Zhicaiwww/Diff-Mix), which enriches the dataset by performing image translations between classes. Our empirical results demonstrate that Diff-Mix achieves a better balance between faithfulness and diversity, leading to a marked improvement in performance across diverse image classification scenarios, including few-shot, conventional, and long-tail classifications for domain-specific datasets.

arxiv情報

著者 Zhicai Wang,Longhui Wei,Tan Wang,Heyu Chen,Yanbin Hao,Xiang Wang,Xiangnan He,Qi Tian
発行日 2024-03-28 17:23:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク