PromptMix: Text-to-image diffusion models enhance the performance of lightweight networks

要約

多くの深層学習タスクでは、人間のオペレーターにとって時間がかかりすぎるアノテーションが必要なため、データセットのサイズが小さくなります。
これは、画像内のすべての人物の位置に注釈を付ける必要がある群集カウントなどの密な回帰問題に特に当てはまります。
このような場合、データ拡張やシミュレーションに基づく合成データ生成などの手法が役立ちます。
このホワイト ペーパーでは、既存のデータセットのサイズを人為的に拡大する方法である PromptMix を紹介します。これは、軽量ネットワークのパフォーマンスを向上させるために使用できます。
まず、合成画像がエンド ツー エンドのデータ駆動型の方法で生成されます。ここでは、テキスト プロンプトが画像キャプション ディープ ネットワークを介して既存のデータセットから抽出され、続いてテキストから画像への拡散モデルに導入されます。
生成された画像は、1 つ以上の高性能なディープ ネットワークを使用して注釈が付けられ、軽量ネットワークをトレーニングするために実際のデータセットと混合されます。
5 つのデータセットと 2 つのタスクに関する広範な実験により、PromptMix が軽量ネットワークのパフォーマンスを最大 26% 大幅に向上させることができることを示しています。

要約(オリジナル)

Many deep learning tasks require annotations that are too time consuming for human operators, resulting in small dataset sizes. This is especially true for dense regression problems such as crowd counting which requires the location of every person in the image to be annotated. Techniques such as data augmentation and synthetic data generation based on simulations can help in such cases. In this paper, we introduce PromptMix, a method for artificially boosting the size of existing datasets, that can be used to improve the performance of lightweight networks. First, synthetic images are generated in an end-to-end data-driven manner, where text prompts are extracted from existing datasets via an image captioning deep network, and subsequently introduced to text-to-image diffusion models. The generated images are then annotated using one or more high-performing deep networks, and mixed with the real dataset for training the lightweight network. By extensive experiments on five datasets and two tasks, we show that PromptMix can significantly increase the performance of lightweight networks by up to 26%.

arxiv情報

著者 Arian Bakhtiarnia,Qi Zhang,Alexandros Iosifidis
発行日 2023-01-30 14:15:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク