要約
マルチモーダル大規模言語モデル (MLLM) は、テキストベースの数学的問題の解決には優れていますが、主に自然のシーンの画像でトレーニングされるため、数学的な図を扱うのに苦労します。
人間にとって、視覚補助は一般に問題解決を強化しますが、情報がテキスト形式から視覚形式に移行するにつれて、MLLM のパフォーマンスは低下します。
この減少の主な原因は、画像とテキストの位置合わせにおける欠点です。
前述の課題に取り組むために、私たちは、Progressive Upward Multimodal Alignment に焦点を当てた方法論である Math-PUMA を提案します。
このアプローチは、3 段階のトレーニング プロセスを通じて MLLM の数学的推論スキルを向上させるように設計されており、第 2 段階は重要な調整段階です。
まず、広範なテキスト形式の数学的問題を使用して、言語モデルの数学的推論機能を強化します。
次に、さまざまなレベルのテキスト情報と視覚情報を含むマルチモーダル データセットを構築し、各問題を少なくとも 2 つの形式で提示することでデータ ペアを作成します。
ネクストトークン予測分布のカルバック・ライブラー (KL) 発散を活用して視覚的モダリティとテキストモダリティを調整することにより、一貫した問題解決能力が保証されます。
最後に、高品質のマルチモーダル データを使用して MLLM のマルチモーダル命令チューニングを利用します。
複数の数学的推論ベンチマークの実験結果は、Math-PUMA でトレーニングされた MLLM がほとんどのオープンソース MLLM を上回っていることを示しています。
私たちのアプローチは、さまざまなモダリティで発生する問題のパフォーマンスギャップを効果的に狭めます。
要約(オリジナル)
Multimodal Large Language Models (MLLMs) excel in solving text-based mathematical problems, but they struggle with mathematical diagrams since they are primarily trained on natural scene images. For humans, visual aids generally enhance problem-solving, but MLLMs perform worse as information shifts from textual to visual modality. This decline is mainly due to their shortcomings in aligning images and text. To tackle aforementioned challenges, we propose Math-PUMA, a methodology focused on Progressive Upward Multimodal Alignment. This approach is designed to improve the mathematical reasoning skills of MLLMs through a three-stage training process, with the second stage being the critical alignment stage. We first enhance the language model’s mathematical reasoning capabilities with extensive set of textual mathematical problems. We then construct a multimodal dataset with varying degrees of textual and visual information, creating data pairs by presenting each problem in at least two forms. By leveraging the Kullback-Leibler (KL) divergence of next-token prediction distributions to align visual and textual modalities, consistent problem-solving abilities are ensured. Finally, we utilize multimodal instruction tuning for MLLMs with high-quality multimodal data. Experimental results on multiple mathematical reasoning benchmarks demonstrate that the MLLMs trained with Math-PUMA surpass most open-source MLLMs. Our approach effectively narrows the performance gap for problems presented in different modalities.
arxiv情報
著者 | Wenwen Zhuang,Xin Huang,Xiantao Zhang,Jin Zeng |
発行日 | 2024-08-16 10:11:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google