Distill Visual Chart Reasoning Ability from LLMs to MLLMs

要約

複雑なチャートの Q&A タスクを解決するには、マルチモーダル大規模言語モデル (MLLM) における高度な視覚的推論能力が必要です。
最近の研究では、これらの能力が 2 つの主要な部分で構成されていることが強調されています。それは、視覚入力から重要な情報を認識することと、それに対して推論を行うことです。
したがって、MLLM を強化するための有望なアプローチは、2 つの側面に焦点を当てて関連するトレーニング データを構築することです。
ただし、複雑なグラフや質問を収集して注釈を付けるにはコストと時間がかかり、注釈付きの回答の品質を確保することは依然として課題です。
この論文では、視覚的推論能力を LLM から MLLM に抽出するための、コスト効率が高く、効率的で簡単にスケーラブルなデータ合成手法である Code-as-Intermediary Translation (CIT) を提案します。
このコードは、視覚的なチャート表現をテキスト表現に変換する仲介者として機能し、LLM がクロスモーダル情報を理解できるようにします。
具体的には、テキストベースの合成技術を使用してチャートプロットコードを構築し、認識能力と推論能力の両方を強化するための 3,000 個の推論集中型チャートと 20,000 個の Q&A ペアを含むデータセットである ReachQA を生成します。
実験の結果、モデルはデータを使って微調整すると、チャート関連のベンチマークで優れたパフォーマンスを発揮するだけでなく、MathVista などの一般的な数学ベンチマークでもマルチモーダルな推論能力が向上することがわかりました。
コードとデータセットは https://github.com/hewei2001/ReachQA で公開されています。

要約(オリジナル)

Solving complex chart Q&A tasks requires advanced visual reasoning abilities in multimodal large language models (MLLMs). Recent studies highlight that these abilities consist of two main parts: recognizing key information from visual inputs and conducting reasoning over it. Thus, a promising approach to enhance MLLMs is to construct relevant training data focusing on the two aspects. However, collecting and annotating complex charts and questions is costly and time-consuming, and ensuring the quality of annotated answers remains a challenge. In this paper, we propose Code-as-Intermediary Translation (CIT), a cost-effective, efficient and easily scalable data synthesis method for distilling visual reasoning abilities from LLMs to MLLMs. The code serves as an intermediary that translates visual chart representations into textual representations, enabling LLMs to understand cross-modal information. Specifically, we employ text-based synthesizing techniques to construct chart-plotting code and produce ReachQA, a dataset containing 3k reasoning-intensive charts and 20k Q&A pairs to enhance both recognition and reasoning abilities. Experiments show that when fine-tuned with our data, models not only perform well on chart-related benchmarks, but also demonstrate improved multimodal reasoning abilities on general mathematical benchmarks like MathVista. The code and dataset are publicly available at https://github.com/hewei2001/ReachQA.

arxiv情報

著者 Wei He,Zhiheng Xi,Wanxu Zhao,Xiaoran Fan,Yiwen Ding,Zifei Shan,Tao Gui,Qi Zhang,Xuanjing Huang
発行日 2024-10-24 14:50:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク