ShareGPT4V: Improving Large Multi-Modal Models with Better Captions

要約

大規模なマルチモーダル モデル (LMM) の領域では、モダリティの効率的な調整が重要ですが、高品質の画像テキスト データの不足によって制約されることがよくあります。
このボトルネックに対処するために、ShareGPT4V データセットを導入します。これは、120 万の高度に説明的なキャプションを備えた先駆的な大規模リソースであり、多様性と情報コンテンツの点で既存のデータセットを上回り、世界の知識、オブジェクトのプロパティ、空間関係、美的評価をカバーします。
具体的には、ShareGPT4V は、高度な GPT4-Vision から収集された精選された 100K の高品質キャプションに由来し、このサブセットでトレーニングされた優れたキャプション モデルにより 1.2M まで拡張されました。
ShareGPT4V はまず、教師付きファインチューニング (SFT) フェーズでの有効性を実証します。これは、既存の SFT データセットの詳細なキャプションの同等量を高品質キャプションのサブセットに置き換え、LLaVA-7B、LLaVA-1.5 などの LMM を大幅に強化することによって行われます。
MME および MMBench ベンチマークでは、-13B、Qwen-VL-Chat-7B、それぞれのゲインは 222.8/22.0/22.3 および 2.7/1.3/1.5 でした。
さらに、ShareGPT4V データを事前トレーニング フェーズと SFT フェーズの両方に組み込んで、大部分のマルチモーダル ベンチマークにわたって顕著なパフォーマンスを発揮する、シンプルなアーキテクチャに基づく優れた LMM である ShareGPT4V-7B を取得しました。
このプロジェクトは https://ShareGPT4V.github.io で入手でき、LMM コミュニティを前進させるための極めて重要なリソースとして機能します。

要約(オリジナル)

In the realm of large multi-modal models (LMMs), efficient modality alignment is crucial yet often constrained by the scarcity of high-quality image-text data. To address this bottleneck, we introduce the ShareGPT4V dataset, a pioneering large-scale resource featuring 1.2 million highly descriptive captions, which surpasses existing datasets in diversity and information content, covering world knowledge, object properties, spatial relationships, and aesthetic evaluations. Specifically, ShareGPT4V originates from a curated 100K high-quality captions collected from advanced GPT4-Vision and has been expanded to 1.2M with a superb caption model trained on this subset. ShareGPT4V first demonstrates its effectiveness for the Supervised Fine-Tuning (SFT) phase, by substituting an equivalent quantity of detailed captions in existing SFT datasets with a subset of our high-quality captions, significantly enhancing the LMMs like LLaVA-7B, LLaVA-1.5-13B, and Qwen-VL-Chat-7B on the MME and MMBench benchmarks, with respective gains of 222.8/22.0/22.3 and 2.7/1.3/1.5. We further incorporate ShareGPT4V data into both the pre-training and SFT phases, obtaining ShareGPT4V-7B, a superior LMM based on a simple architecture that has remarkable performance across a majority of the multi-modal benchmarks. This project is available at https://ShareGPT4V.github.io to serve as a pivotal resource for advancing the LMMs community.

arxiv情報

著者 Lin Chen,Jisong Li,Xiaoyi Dong,Pan Zhang,Conghui He,Jiaqi Wang,Feng Zhao,Dahua Lin
発行日 2023-11-21 18:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク