Advancing Fine-Grained Classification by Structure and Subject Preserving Augmentation

要約

詳細な視覚的分類 (FGVC) には、密接に関連したサブクラスの分類が含まれます。
このタスクは、クラス間の微妙な違いとクラス内の分散が大きいため、困難です。
さらに、FGVC データセットは通常小さく、収集が困難であるため、効果的なデータ増強の重要な必要性が浮き彫りになっています。
テキストから画像への拡散モデルの最近の進歩により、分類データセットを強化するための新たな可能性が提供されています。
これらのモデルは分類タスクのトレーニング データを生成するために使用されてきましたが、FGVC モデルの完全なデータセット トレーニングにおけるその有効性はまだ調査されていません。
Text2Image 生成または Img2Img メソッドに依存する最近の技術は、データセットの多様性を大幅に高める程度に変更しながら、クラスを正確に表す画像を生成するのに苦労することがよくあります。
これらの課題に対処するために、私たちは SaSPA: Structure and Subject Preserving Augmentation を提案します。
最近の方法とは対照的に、私たちの方法は実際の画像をガイダンスとして使用しないため、生成の柔軟性が向上し、より大きな多様性が促進されます。
正確なクラス表現を保証するために、特に画像のエッジと主題の表現を条件付けすることによって、条件付けメカニズムを採用します。
私たちは広範な実験を実施し、従来および最近の生成データ拡張手法の両方に対して SaSPA のベンチマークを行います。
SaSPA は、完全なデータセット トレーニング、コンテキスト バイアス、少数ショット分類など、複数の設定にわたって確立されたすべてのベースラインを常に上回ります。
さらに、私たちの結果は、FGVC モデルに合成データを使用する際の興味深いパターンを明らかにしました。
たとえば、使用される実際のデータの量と合成データの最適な割合との間に関係があることがわかります。
コードは https://github.com/EyalMichaeli/SaSPA-Aug で入手できます。

要約(オリジナル)

Fine-grained visual classification (FGVC) involves classifying closely related sub-classes. This task is difficult due to the subtle differences between classes and the high intra-class variance. Moreover, FGVC datasets are typically small and challenging to gather, thus highlighting a significant need for effective data augmentation. Recent advancements in text-to-image diffusion models offer new possibilities for augmenting classification datasets. While these models have been used to generate training data for classification tasks, their effectiveness in full-dataset training of FGVC models remains under-explored. Recent techniques that rely on Text2Image generation or Img2Img methods, often struggle to generate images that accurately represent the class while modifying them to a degree that significantly increases the dataset’s diversity. To address these challenges, we present SaSPA: Structure and Subject Preserving Augmentation. Contrary to recent methods, our method does not use real images as guidance, thereby increasing generation flexibility and promoting greater diversity. To ensure accurate class representation, we employ conditioning mechanisms, specifically by conditioning on image edges and subject representation. We conduct extensive experiments and benchmark SaSPA against both traditional and recent generative data augmentation methods. SaSPA consistently outperforms all established baselines across multiple settings, including full dataset training, contextual bias, and few-shot classification. Additionally, our results reveal interesting patterns in using synthetic data for FGVC models; for instance, we find a relationship between the amount of real data used and the optimal proportion of synthetic data. Code is available at https://github.com/EyalMichaeli/SaSPA-Aug.

arxiv情報

著者 Eyal Michaeli,Ohad Fried
発行日 2024-06-21 09:56:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク