VisCon-100K: Leveraging Contextual Web Data for Fine-tuning Vision Language Models

要約

ビジョン言語モデル(VLM)は、さまざまな視覚ベンチマークで優れていますが、多くの場合、高品質の視覚的な微調整データの欠如によって制約されます。
この課題に対処するために、インターリーブされた画像テキストWebドキュメントから派生した新しいデータセットであるViscon-100Kを紹介します。
私たちのアプローチは、45kのWebドキュメントをObelicsデータセットから100kの画像会話サンプルに変換します。
GPT-4Vを利用して画像コンテキストキャプションとOpenChat 3.5モデルを生成して、これらのキャプションを多様なフリーフォームおよび複数選択の質問回答ペアに変換します。
このデータセットを統合して微調整すると、複数のベンチマークでVLMパフォーマンスが大幅に向上します。
きめ細かい視覚コンテンツのみに焦点を当てた方法とは異なり、私たちのアプローチはWebコンテキストに伴うレバレッジを活用して、優れた結果をもたらします。
また、会話サンプルが画像とそのコンテキストキャプションの両方から答えられる質問が含まれている「漏れやすいモダリティミックス」が、キャプションとQ \&aペアの非リーキーな組み合わせよりも優れていることがわかります。
Viscon-100Kデータセットは、画像キャプションデータ(ShareGPT4V-7B)を使用してビジョンエンコーダーとアライメントしたテキストのみの大型言語モデル(LLM)と、マルチモダリストライアトレインLLM(IDEFICS2-8B)を使用して、インターリードイメージテキストテキストテキストテキストテキストを使用してビジョンエンコーダとアライメントした、2つの一般的なVLMアプローチで強力なパフォーマンスを示しています。
データ。
Viscon-100Kデータセットのリリースに加えて、このデータセットでトレーニングされたコンテキストキャプションを提供し、将来の研究およびオープンソースアプリケーションのためにスケーラブルな微調整データ生成を促進します。
同じパイプラインを使用しますが、訓練されたコンテキストキャプションをGPT-4Vに置き換えて、より大きなVisCon-1Mデータセットもリリースします。

要約(オリジナル)

Vision-language models (VLMs) excel in various visual benchmarks but are often constrained by the lack of high-quality visual fine-tuning data. To address this challenge, we introduce VisCon-100K, a novel dataset derived from interleaved image-text web documents. Our approach transforms 45K web documents from the OBELICS dataset into 100K image conversation samples. We utilize GPT-4V to generate image-contextual captions and OpenChat 3.5 model to convert these captions into diverse free-form and multiple-choice question-answer pairs. Integrating this dataset for fine-tuning considerably enhances VLM performance across multiple benchmarks. Unlike methods that focus solely on fine-grained visual content, our approach leverages accompanying web context, yielding superior results. We also discover that a `leaky modality mix,’ where conversation samples contain questions answerable from both the image and its contextual caption, outperforms non-leaky combinations of captions and Q\&A pairs. VisCon-100k dataset shows strong performance with two popular VLM approaches: text-only large language model (LLM) aligned with a vision encoder using image captions data (ShareGPT4V-7b) and multimodally pretrained LLM (IDEFICS2-8b) using interleaved image-text data. In addition to releasing the VisCon-100K dataset, we provide a contextual captioner trained on this dataset, facilitating scalable fine-tuning data generation for future research and open-source applications. Using the same pipeline, but substituting our trained contextual captioner for GPT-4V, we also release the larger VisCon-1M dataset.

arxiv情報

著者 Gokul Karthik Kumar,Iheb Chaabane,Kebin Wu
発行日 2025-02-14 15:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク