ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning

要約

チャートは、データの可視化、データパターンの理解、情報に基づいた意思決定において重要な役割を果たす。しかし、グラフ要素(棒グラフ、折れ線など)とテキスト要素(ラベル、凡例など)のユニークな組み合わせは、汎用的なマルチモーダルモデルにとって課題となる。グラフデータに対して学習された視覚言語モデルは、理解力には優れているものの、汎化には苦戦しており、タスクに特化した微調整が必要である。これらの課題に対処するために、我々は、普遍的なチャート理解と推論のためのチャートベースの視覚言語モデルであるChartAssistantを提案する。ChartAssistantは、ChartSFTという、基本的なチャートから特殊なチャートまで、様々なチャート関連タスクを網羅した包括的なデータセットを活用する。ChartAssistantは、チャートとテキストを整合させるためのチャート-テーブル構文解析の事前学習から始まり、マルチタスク命令に従う微調整という2段階の学習プロセスを経る。このアプローチにより、ChartAssistantはタスク固有の微調整を行うことなく、様々なチャートタスクにおいて競争力のあるパフォーマンスを達成することができる。実験結果は、最先端のUniChartメソッドと比較して大幅な性能向上を示しており、実世界のチャートデータにおいてOpenAIのGPT-4V(ision)を凌駕している。コードとデータはhttps://github.com/OpenGVLab/ChartAst。

要約(オリジナル)

Charts play a vital role in data visualization, understanding data patterns, and informed decision-making. However, their unique combination of graphical elements (e.g., bars, lines) and textual components (e.g., labels, legends) poses challenges for general-purpose multimodal models. While vision-language models trained on chart data excel in comprehension, they struggle with generalization and require task-specific fine-tuning. To address these challenges, we propose ChartAssistant, a chart-based vision-language model for universal chart comprehension and reasoning. ChartAssistant leverages ChartSFT, a comprehensive dataset covering diverse chart-related tasks with basic and specialized chart types. It undergoes a two-stage training process, starting with pre-training on chart-to-table parsing to align chart and text, followed by multitask instruction-following fine-tuning. This approach enables ChartAssistant to achieve competitive performance across various chart tasks without task-specific fine-tuning. Experimental results demonstrate significant performance gains over the state-of-the-art UniChart method, outperforming OpenAI’s GPT-4V(ision) on real-world chart data. The code and data are available at https://github.com/OpenGVLab/ChartAst.

arxiv情報

著者 Fanqing Meng,Wenqi Shao,Quanfeng Lu,Peng Gao,Kaipeng Zhang,Yu Qiao,Ping Luo
発行日 2024-01-04 17:51:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク