MAVIS: Mathematical Visual Instruction Tuning

要約

マルチモーダル大規模言語モデル (MLLM) は、最近、学界と産業界で重要な焦点として浮上しています。
一般的なマルチモーダル シナリオでは熟練しているにもかかわらず、視覚的なコンテキストでの数学的問題解決能力については十分に検討されていません。
私たちは、MLLM 内で改善が必要な 3 つの重要な領域を特定します。それは、数式図の視覚的エンコーディング、図と言語の調整、および数学的推論スキルです。
これにより、視覚数学における大規模で高品質のデータとトレーニング パイプラインに対する緊急の需要が呼び出されます。
この論文では、一連の数学的ビジュアル データセットと特殊な MLLM を含む、MLLM 用の初の数学的 VISual 命令チューニング パラダイムである MAVIS を提案します。
MAVIS には 3 つの問題をターゲットとして、ゼロからの 3 つの段階的なトレーニング段階が含まれています。
まず、558K の図表とキャプションのペアで構成される MAVIS-Caption を厳選し、図表のビジュアル エンコーディングを改善するために調整された、対比学習を通じて数学固有のビジョン エンコーダー (CLIP-Math) を微調整します。
次に、MAVIS-Caption を利用して、射影層によって CLIP-Math を大規模言語モデル (LLM) と調整し、数学的領域における視覚と言語の調整を強化します。
3 番目に、細心の注意を払って収集され、注釈が付けられた 900,000 件の視覚的な数学問題を含む MAVIS-Instruct を導入します。これは、堅牢な数学的推論スキルを実現するために MLLM を最終的に指示調整するために採用されています。
MAVIS-Instruct では、各問題に対する完全な思考連鎖 (CoT) 理論的根拠を組み込み、テキストの冗長性を最小限に抑えることで、モデルを視覚要素に集中させます。
データとモデルは https://github.com/ZrrSkywalker/MAVIS で公開されています

要約(オリジナル)

Multi-modal Large Language Models (MLLMs) have recently emerged as a significant focus in academia and industry. Despite their proficiency in general multi-modal scenarios, the mathematical problem-solving capabilities in visual contexts remain insufficiently explored. We identify three key areas within MLLMs that need to be improved: visual encoding of math diagrams, diagram-language alignment, and mathematical reasoning skills. This draws forth an urgent demand for large-scale, high-quality data and training pipelines in visual mathematics. In this paper, we propose MAVIS, the first MAthematical VISual instruction tuning paradigm for MLLMs, involving a series of mathematical visual datasets and specialized MLLMs. Targeting the three issues, MAVIS contains three progressive training stages from scratch. First, we curate MAVIS-Caption, consisting of 558K diagram-caption pairs, to fine-tune a math-specific vision encoder (CLIP-Math) through contrastive learning, tailored for improved diagram visual encoding. Second, we utilize MAVIS-Caption to align the CLIP-Math with a large language model (LLM) by a projection layer, enhancing vision-language alignment in mathematical domains. Third, we introduce MAVIS-Instruct, including 900K meticulously collected and annotated visual math problems, which is adopted to finally instruct-tune the MLLM for robust mathematical reasoning skills. In MAVIS-Instruct, we incorporate complete chain-of-thought (CoT) rationales for each problem, and minimize textual redundancy, thereby concentrating the model towards the visual elements. Data and Models are released at https://github.com/ZrrSkywalker/MAVIS

arxiv情報

著者 Renrui Zhang,Xinyu Wei,Dongzhi Jiang,Yichi Zhang,Ziyu Guo,Chengzhuo Tong,Jiaming Liu,Aojun Zhou,Bin Wei,Shanghang Zhang,Peng Gao,Hongsheng Li
発行日 2024-07-11 17:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク