要約
人間がラベル付けした高品質の画像キャプション データセットの作成は、視覚言語モデル (VLM) の開発において重大なボトルネックとなります。
私たちは、大規模言語モデル (LLM) と画像生成モデルの強みを活用して、効率的かつ効果的な VLM トレーニングのための合成画像とテキストのペアを作成する新しいアプローチを提案します。
私たちの方法では、テキストから画像へのモデルの事前トレーニングを使用して、LLM によって生成されたキャプションから始まる画像埋め込みを合成します。
これらの合成ペアは、VLM のトレーニングに使用されます。
広範な実験により、合成データを使用してトレーニングされた VLM は、人間が注釈を付けたデータのみを使用してトレーニングされたモデルで使用されるデータの一部を必要としながらも、画像キャプションに関しては同等のパフォーマンスを示すことが実証されました。
特に、合成データセットによる拡張により、ベースラインを 17% 上回りました。
さらに、画像埋め込み空間での合成はピクセル空間での合成より 25% 高速であることを示します。
この研究は、大規模でカスタマイズ可能な画像データセットを生成するための有望な手法を導入し、VLM パフォーマンスの向上とさまざまなドメインにわたる幅広い適用性につながり、データ効率とリソース利用率が向上します。
要約(オリジナル)
The creation of high-quality human-labeled image-caption datasets presents a significant bottleneck in the development of Visual-Language Models (VLMs). We propose a novel approach that leverages the strengths of Large Language Models (LLMs) and image generation models to create synthetic image-text pairs for efficient and effective VLM training. Our method employs pretraining a text-to-image model to synthesize image embeddings starting from captions generated by an LLM. These synthetic pairs are then used to train a VLM. Extensive experiments demonstrate that the VLM trained with synthetic data exhibits comparable performance on image captioning, while requiring a fraction of the data used by models trained solely on human-annotated data. In particular, we outperform the baseline by 17% through augmentation with a synthetic dataset. Furthermore, we show that synthesizing in the image embedding space is 25% faster than in the pixel space. This research introduces a promising technique for generating large-scale, customizable image datasets, leading to enhanced VLM performance and wider applicability across various domains, all with improved data efficiency and resource utilization.
arxiv情報
著者 | Sahand Sharifzadeh,Christos Kaplanis,Shreya Pathak,Dharshan Kumaran,Anastasija Ilic,Jovana Mitrovic,Charles Blundell,Andrea Banino |
発行日 | 2024-03-12 15:36:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google