ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning

要約

チャートは、データの視覚化、データ パターンの理解、情報に基づいた意思決定において重要な役割を果たします。
ただし、グラフィック要素 (バー、線など) とテキスト コンポーネント (ラベル、凡例など) の独自の組み合わせにより、汎用マルチモーダル モデルには課題が生じます。
チャート データでトレーニングされたビジョン言語モデルは理解力に優れていますが、一般化には苦労します。
これらの課題に対処するために、私たちは、普遍的なチャートの理解と推論のためのチャートベースのビジョン言語モデルである ChartAssistant を提案します。
ChartAssistant は、基本的なグラフ (棒グラフや円グラフなど) と特殊なグラフ (レーダーやバブルなど) の種類を含むさまざまなグラフ関連タスクをカバーする包括的なデータセットである ChartSFT を活用します。
これは 2 段階のトレーニング プロセスを経ます。まず、チャートとテキストを調整するためのチャートからテーブルへの解析に関する事前トレーニングから始まり、その後、マルチタスクの指示に続く微調整が続きます。
このアプローチにより、ChartAssistant はさまざまなチャート タスクにわたって競争力のあるパフォーマンスを達成できるようになります。
実験結果では、最先端の UniChart および Chartllama メソッドと比べてパフォーマンスが大幅に向上し、特にゼロショット設定の実際のチャート データでパフォーマンスが優れていることが実証されています。
コードとデータは https://github.com/OpenGVLab/ChartAst で入手できます。

要約(オリジナル)

Charts play a vital role in data visualization, understanding data patterns, and informed decision-making. However, their unique combination of graphical elements (e.g., bars, lines) and textual components (e.g., labels, legends) poses challenges for general-purpose multimodal models. While vision-language models trained on chart data excel in comprehension, they struggle with generalization. To address these challenges, we propose ChartAssistant, a chart-based vision-language model for universal chart comprehension and reasoning. ChartAssistant leverages ChartSFT, a comprehensive dataset covering diverse chart-related tasks with basic (e.g. bars and pies) and specialized (e.g. radars, and bubbles) chart types. It undergoes a two-stage training process, starting with pre-training on chart-to-table parsing to align chart and text, followed by multitask instruction-following fine-tuning. This approach enables ChartAssistant to achieve competitive performance across various chart tasks. Experimental results demonstrate significant performance gains over the state-of-the-art UniChart and Chartllama method, especially outperforming them on real-world chart data with zero-shot setting. The code and data are available at https://github.com/OpenGVLab/ChartAst.

arxiv情報

著者 Fanqing Meng,Wenqi Shao,Quanfeng Lu,Peng Gao,Kaipeng Zhang,Yu Qiao,Ping Luo
発行日 2024-02-15 15:34:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク