A data augmentation perspective on diffusion models and retrieval

要約

タイトル:拡散モデルとリトリーバルにおけるデータ増強の観点からの評価

要約:
– ディフュージョンモデルは、テキストクエリから写真のようなリアルなイメージを生成することで優れた性能を発揮しています。
– 多くのアプローチが提案され、これらの生成能力を使用して、分類などのダウンストリームタスクのトレーニングデータセットを拡張するために使用されています。
– しかし、拡散モデル自体は、大規模な騒々しい監督付きデータセットでトレーニングされています。拡散モデルの付加的なデータを使用した事前トレーニングプロセス以外の一般化能力がより良いダウンストリームパフォーマンスにつながるかどうかは未解決の問題です。
– 私たちは、既存の拡散モデルから画像を生成する手法を体系的に評価し、新しい拡張機能を研究して、データ拡張の利益を評価します。
– 対象データに向けてパーソナライズされた拡散モデルは、より単純なプロンプティング戦略を上回りますが、拡散モデルのトレーニングデータのみを使用して、単純な最近傍リトリーバル手順を使用することで、より強力なダウンストリームパフォーマンスが得られることを示します。
– 全体的に、私たちの研究は、拡散モデルのデータ増幅の限界を調査する一方、シンプルなダウンストリームビジョンタスクのパフォーマンスを向上させるための新しいトレーニングデータを生成する可能性を強調しています。

要約(オリジナル)

Diffusion models excel at generating photorealistic images from text-queries. Naturally, many approaches have been proposed to use these generative abilities to augment training datasets for downstream tasks, such as classification. However, diffusion models are themselves trained on large noisily supervised, but nonetheless, annotated datasets. It is an open question whether the generalization capabilities of diffusion models beyond using the additional data of the pre-training process for augmentation lead to improved downstream performance. We perform a systematic evaluation of existing methods to generate images from diffusion models and study new extensions to assess their benefit for data augmentation. While we find that personalizing diffusion models towards the target data outperforms simpler prompting strategies, we also show that using the training data of the diffusion model alone, via a simple nearest neighbor retrieval procedure, leads to even stronger downstream performance. Overall, our study probes the limitations of diffusion models for data augmentation but also highlights its potential in generating new training data to improve performance on simple downstream vision tasks.

arxiv情報

著者 Max F. Burg,Florian Wenzel,Dominik Zietlow,Max Horn,Osama Makansi,Francesco Locatello,Chris Russell
発行日 2023-04-20 12:21:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG パーマリンク