要約
最近、Web 画像の台頭により、大規模な画像データセットの管理と理解の重要性がますます高まっています。
ビジョンラージ言語モデル (VLLM) は、その堅牢なビジョン理解機能により最近登場しました。
ただし、これらのモデルのトレーニングには膨大な量のデータが必要となり、効率、有効性、データ品質、プライバシーに課題が生じます。
このペーパーでは、VLLM 用の新しいデータ合成パイプラインである SynthVLM を紹介します。
画像からキャプションを生成する既存の方法とは異なり、SynthVLM は高度な拡散モデルと高品質のキャプションを採用して、キャプションから高解像度画像を自動的に生成および選択し、正確に位置合わせされた画像とテキストのペアを作成します。
これらのペアを活用することで、さまざまな視覚質問応答タスクで最先端 (SoTA) のパフォーマンスを実現し、高い調整品質を維持し、高度な言語能力を維持します。
さらに、SynthVLM は、計算オーバーヘッドを大幅に削減しながら、パフォーマンスにおいて従来の GPT-4 Vision ベースのキャプション生成方法を上回ります。
重要なのは、私たちの手法が純粋に生成されたデータに依存しているため、プライバシーの保護が保証され、わずか 100,000 のデータ ポイント (公式のデータセット サイズのわずか 18%) で SoTA のパフォーマンスを達成できます。
要約(オリジナル)
Recently, with the rise of web images, managing and understanding large-scale image datasets has become increasingly important. Vision Large Language Models (VLLMs) have recently emerged due to their robust vision-understanding capabilities. However, training these models requires vast amounts of data, posing challenges to efficiency, effectiveness, data quality, and privacy. In this paper, we introduce SynthVLM, a novel data synthesis pipeline for VLLMs. Unlike existing methods that generate captions from images, SynthVLM employs advanced diffusion models and high-quality captions to automatically generate and select high-resolution images from captions, creating precisely aligned image-text pairs. Leveraging these pairs, we achieve state-of-the-art (SoTA) performance on various vision question answering tasks, maintaining high alignment quality and preserving advanced language abilities. Moreover, SynthVLM surpasses traditional GPT-4 Vision-based caption generation methods in performance while significantly reducing computational overhead. Crucially, our method’s reliance on purely generated data ensures the preservation of privacy, achieving SoTA performance with just 100k data points (only 18% of the official dataset size).
arxiv情報
著者 | Zheng Liu,Hao Liang,Wentao Xiong,Qinhan Yu,Conghui He,Bin Cui,Wentao Zhang |
発行日 | 2024-07-30 11:57:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google