CompCap: Improving Multimodal Large Language Models with Composite Captions

要約

マルチモーダル大規模言語モデル (MLLM) は合成画像をどの程度理解できるでしょうか?
複合画像 (CI) は、カメラで直接キャプチャされるのではなく、グラフ、ポスター、スクリーンショットなどの複数の視覚要素を結合することによって作成される合成ビジュアルです。
CI は現実世界のアプリケーションで普及していますが、最近の MLLM の開発は主に自然画像 (NI) の解釈に焦点を当てています。
私たちの調査では、現在の MLLM が CI を正確に理解する上で大きな課題に直面しており、多くの場合、これらの画像に基づいて情報を抽出したり、複雑な推論を実行したりするのに苦労していることが明らかになりました。
CI の既存のトレーニング データはほとんどが質問応答タスク用にフォーマットされている (たとえば、ChartQA や ScienceQA などのデータセット内) 一方で、堅牢な視覚と言語の調整に不可欠な高品質の画像キャプション データセットは NI でのみ利用できることがわかりました。
このギャップを埋めるために、大規模言語モデル (LLM) と自動化ツールを活用して、正確かつ詳細なキャプションを含む CI を合成する柔軟なフレームワークである Composite Captions (CompCap) を導入します。
CompCap を使用して、6 つの CI タイプにわたる 118K の画像とキャプションのペアを含むデータセットである CompCap-118K をキュレーションします。
xGen-MM-inst.-4B および LLaVA-NeXT-Vicuna-7B/13B の 3 つのサイズの MLLM を監視付きで微調整することにより、CompCap-118K の有効性を検証します。
実証結果によると、CompCap-118K は MLLM の CI への理解を大幅に高め、11 のベンチマーク全体でそれぞれ 1.7%、2.0%、2.9% の平均利益をもたらしました。

要約(オリジナル)

How well can Multimodal Large Language Models (MLLMs) understand composite images? Composite images (CIs) are synthetic visuals created by merging multiple visual elements, such as charts, posters, or screenshots, rather than being captured directly by a camera. While CIs are prevalent in real-world applications, recent MLLM developments have primarily focused on interpreting natural images (NIs). Our research reveals that current MLLMs face significant challenges in accurately understanding CIs, often struggling to extract information or perform complex reasoning based on these images. We find that existing training data for CIs are mostly formatted for question-answer tasks (e.g., in datasets like ChartQA and ScienceQA), while high-quality image-caption datasets, critical for robust vision-language alignment, are only available for NIs. To bridge this gap, we introduce Composite Captions (CompCap), a flexible framework that leverages Large Language Models (LLMs) and automation tools to synthesize CIs with accurate and detailed captions. Using CompCap, we curate CompCap-118K, a dataset containing 118K image-caption pairs across six CI types. We validate the effectiveness of CompCap-118K by supervised fine-tuning MLLMs of three sizes: xGen-MM-inst.-4B and LLaVA-NeXT-Vicuna-7B/13B. Empirical results show that CompCap-118K significantly enhances MLLMs’ understanding of CIs, yielding average gains of 1.7%, 2.0%, and 2.9% across eleven benchmarks, respectively.

arxiv情報

著者 Xiaohui Chen,Satya Narayan Shukla,Mahmoud Azab,Aashu Singh,Qifan Wang,David Yang,ShengYun Peng,Hanchao Yu,Shen Yan,Xuewen Zhang,Baosheng He
発行日 2024-12-06 18:22:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク