Diversify Your Vision Datasets with Automatic Diffusion-Based Augmentation

要約

希少動物の識別など、多くのきめの細かい分類タスクではトレーニング データが限られているため、これらのデータセットでトレーニングされた分類子は、天候や場所の変化などの領域の変化に一般化できないことがよくあります。
そのため、私たちは、トレーニング データに含まれるドメインの自然言語記述を、さまざまな事前トレーニング データセットでトレーニングされた大規模ビジョン モデルでどのように使用して、トレーニング データの有用なバリエーションを生成できるかを検討します。
ALIA (Automated Language-guided Image Augmentation) を紹介します。これは、大規模なビジョンと言語モデルを利用して、データセットのドメインの自然言語記述を自動的に生成し、言語ガイド付き画像編集によってトレーニング データを拡張する方法です。
データの整合性を維持するために、元のデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連の情報を破損する画像編集を除外します。
結果として得られるデータセットは、元のトレーニング データと視覚的に一致しており、多様性が大幅に強化されています。
ALIA が、ドメイン一般化や文脈バイアスのケースを含む、きめの細かい分類タスクにおいて、従来のデータ拡張やテキストから画像への生成データを上回ることができることを示します。
コードは https://github.com/lisadunlap/ALIA で入手できます。

要約(オリジナル)

Many fine-grained classification tasks, like rare animal identification, have limited training data and consequently classifiers trained on these datasets often fail to generalize to variations in the domain like changes in weather or location. As such, we explore how natural language descriptions of the domains seen in training data can be used with large vision models trained on diverse pretraining datasets to generate useful variations of the training data. We introduce ALIA (Automated Language-guided Image Augmentation), a method which utilizes large vision and language models to automatically generate natural language descriptions of a dataset’s domains and augment the training data via language-guided image editing. To maintain data integrity, a model trained on the original dataset filters out minimal image edits and those which corrupt class-relevant information. The resulting dataset is visually consistent with the original training data and offers significantly enhanced diversity. We show that ALIA is able to surpasses traditional data augmentation and text-to-image generated data on fine-grained classification tasks, including cases of domain generalization and contextual bias. Code is available at https://github.com/lisadunlap/ALIA.

arxiv情報

著者 Lisa Dunlap,Alyssa Umino,Han Zhang,Jiezhi Yang,Joseph E. Gonzalez,Trevor Darrell
発行日 2023-10-29 22:52:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク