VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search

要約

ビジョン言語モデルは、多くの知覚に焦点を当てたタスクで大きな進歩を遂げていますが、高品質で多様なトレーニングデータがないため、推論に焦点を当てたタスクに関する進歩は制限されているようです。
この作業では、推論に焦点を当てたマルチモーダルデータセットの希少性の問題に対処することを目指しています。
VisualWebintruct-検索エンジンを活用して、数学、物理学、金融、化学などなどの複数の分野にまたがる多様で高品質のデータセットを作成する新しいアプローチを提案します。
700Kを超える一意のURLソースからHTMLを収集および処理します。
コンテンツ抽出、フィルタリング、合成のパイプラインを通じて、約900kの質問回答ペアのデータセットを構築し、40%が視覚QAペア、残りはテキストQAペアとして構成されています。
VisualWebinstructで微調整されたモデルは、大幅なパフォーマンスの向上を示しています。(1)Llava-ov-MIDからのトレーニングは、ベンチマーク全体で10〜20%の絶対ポイントゲインを示しています。
私たちの最高のモデルMammoth-VL2は、MMMU-Pro-STD(40.7%)、Mathverse(42.6%)、およびDynamath(55.7%)の10Bパラメータークラス内で最先端のパフォーマンスを示しています。
これらの顕著な結果は、複雑なマルチモーダルタスクのVLMSの推論機能を強化する際のデータセットの有効性を強調しています。

要約(オリジナル)

Vision-Language Models have made significant progress on many perception-focused tasks, however, their progress on reasoning-focused tasks seem to be limited due to the lack of high-quality and diverse training data. In this work, we aim to address the scarcity issue of reasoning-focused multimodal datasets. We propose VisualWebInstruct – a novel approach that leverages search engine to create a diverse, and high-quality dataset spanning multiple disciplines like math, physics, finance, chemistry, etc. Starting with meticulously selected 30,000 seed images, we employ Google Image search to identify websites containing similar images. We collect and process the HTMLs from over 700K unique URL sources. Through a pipeline of content extraction, filtering and synthesis, we build a dataset of approximately 900K question-answer pairs, with 40% being visual QA pairs and the rest as text QA pairs. Models fine-tuned on VisualWebInstruct demonstrate significant performance gains: (1) training from Llava-OV-mid shows 10-20% absolute point gains across benchmarks, (2) training from MAmmoTH-VL shows 5% absoluate gain. Our best model MAmmoTH-VL2 shows state-of-the-art performance within the 10B parameter class on MMMU-Pro-std (40.7%), MathVerse (42.6%), and DynaMath (55.7%). These remarkable results highlight the effectiveness of our dataset in enhancing VLMs’ reasoning capabilities for complex multimodal tasks.

arxiv情報

著者 Yiming Jia,Jiachen Li,Xiang Yue,Bo Li,Ping Nie,Kai Zou,Wenhu Chen
発行日 2025-03-13 17:32:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク