要約
データ補強は、視覚分類タスクにおける汎化を強化するために広く用いられている。しかし、従来の手法は、ドメイン適応のように、ソースとターゲットのドメインが異なる場合、ドメインのギャップに対処できないため、苦戦を強いられる。本稿では、領域内および領域横断的な画像分類を強化する、汎化可能なプロンプト誘導型生成的データ補強手法であるGenMixを紹介する。本手法は、画像編集を活用し、問題の種類ごとに特別に設計されたカスタム条件プロンプトに基づいて、拡張画像を生成する。入力画像の一部を編集された生成画像とブレンドし、フラクタルパターンを組み込むことで、我々のアプローチは非現実的な画像とラベルの曖昧さを緩和し、結果として得られるモデルの性能と敵対的頑健性を向上させる。本手法の有効性は、8つの公開データセットを用いた、一般的な分類ときめ細かな分類の広範な実験により、ドメイン内設定とドメイン横断設定の両方で立証される。さらに、自己教師あり学習、データ不足時の学習、および敵対的ロバスト性についての性能向上を実証する。既存の最先端手法と比較して、我々の手法は全体的に強力な性能を達成している。
要約(オリジナル)
Data augmentation is widely used to enhance generalization in visual classification tasks. However, traditional methods struggle when source and target domains differ, as in domain adaptation, due to their inability to address domain gaps. This paper introduces GenMix, a generalizable prompt-guided generative data augmentation approach that enhances both in-domain and cross-domain image classification. Our technique leverages image editing to generate augmented images based on custom conditional prompts, designed specifically for each problem type. By blending portions of the input image with its edited generative counterpart and incorporating fractal patterns, our approach mitigates unrealistic images and label ambiguity, improving the performance and adversarial robustness of the resulting models. Efficacy of our method is established with extensive experiments on eight public datasets for general and fine-grained classification, in both in-domain and cross-domain settings. Additionally, we demonstrate performance improvements for self-supervised learning, learning with data scarcity, and adversarial robustness. As compared to the existing state-of-the-art methods, our technique achieves stronger performance across the board.
arxiv情報
著者 | Khawar Islam,Muhammad Zaigham Zaheer,Arif Mahmood,Karthik Nandakumar,Naveed Akhtar |
発行日 | 2024-12-04 16:38:01+00:00 |
arxivサイト | arxiv_id(pdf) |