要約
拡散ベースのモデルは、さまざまなレイアウトで高品質の画像を生成する上で大きな可能性を示しており、下流の認識タスクに利益をもたらすことができます。
ただし、言語のみによって駆動される完全自動レイアウト生成と、生成された複数のインスタンスを測定するための適切なメトリックについては、十分に検討されていません。
この研究では、知覚とマルチモーダル トレーニングを強化するために高品質のマルチモーダル トレーニング サンプルを生成する新しいフレームワークである Auto Cherry-Picker (ACP) を紹介します。
自然言語概念の単純なリストから始めて、大規模言語モデル (LLM) に詳細な記述を生成させ、合理的なレイアウトを設計させます。
次に、既製のテキストから画像へのモデルを使用して、複数の画像を生成します。
次に、生成されたデータは、品質を確保するために包括的に設計された指標を使用して洗練されます。
特に、生成された画像を公平に評価するための新しい指標である Composite Layout and Image Score (CLIS) を提示します。
当社の合成高品質サンプルは、特にロングテール分布や不均衡なデータセットに関連する課題に対処する際に、初期コンセプト リストをカスタマイズすることにより、さまざまなシナリオでのパフォーマンスを向上させます。
ダウンストリーム タスクの実験結果は、Auto Cherry-Picker が既存のモデルのパフォーマンスを大幅に向上できることを示しています。
さらに、CLIS とダウンストリーム タスクのパフォーマンス向上との相関関係を徹底的に調査し、CLIS スコアが向上するとパフォーマンスも向上することがわかりました。
この発見は、さまざまな視覚認識および MLLM タスクの役割としての評価指標の可能性を示しています。
コードが利用可能になります。
要約(オリジナル)
Diffusion-based models have shown great potential in generating high-quality images with various layouts, which can benefit downstream perception tasks. However, a fully automatic layout generation driven only by language and a suitable metric for measuring multiple generated instances has not been well explored. In this work, we present Auto Cherry-Picker (ACP), a novel framework that generates high-quality multi-modal training examples to augment perception and multi-modal training. Starting with a simple list of natural language concepts, we prompt large language models (LLMs) to generate a detailed description and design reasonable layouts. Next, we use an off-the-shelf text-to-image model to generate multiple images. Then, the generated data are refined using a comprehensively designed metric to ensure quality. In particular, we present a new metric, Composite Layout and Image Score (CLIS), to evaluate the generated images fairly. Our synthetic high-quality examples boost performance in various scenarios by customizing the initial concept list, especially in addressing challenges associated with long-tailed distribution and imbalanced datasets. Experiment results on downstream tasks demonstrate that Auto Cherry-Picker can significantly improve the performance of existing models. In addition, we have thoroughly investigated the correlation between CLIS and performance gains in downstream tasks, and we find that a better CLIS score results in better performance. This finding shows the potential for evaluation metrics as the role for various visual perception and MLLM tasks. Code will be available.
arxiv情報
| 著者 | Yicheng Chen,Xiangtai Li,Yining Li,Yanhong Zeng,Jianzong Wu,Xiangyu Zhao,Kai Chen |
| 発行日 | 2024-06-28 17:53:18+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google