ChartMoE: Mixture of Expert Connector for Advanced Chart Understanding

要約

図表の自動理解は、内容理解や文書構文解析にとって極めて重要である。マルチモーダル大規模言語モデル(MLLM)は、ドメインに特化したアライメントとファインチューニングにより、図表理解に顕著な能力を発揮してきた。しかし、図表領域におけるアライメント学習の応用はまだ十分に研究されていない。これを解決するために、我々はChartMoEを提案する。ChartMoEは、モダリティギャップを埋めるために、従来の線形プロジェクタを置き換える混合エキスパート(MoE)アーキテクチャを採用する。具体的には、異なる専門家のための基礎的な初期化パラメータとして利用される、異なるアライメントタスクを通して複数の線形コネクタを訓練する。さらに、3つのアライメントタスク(chart-table/JSON/code)を実施するために、900K以上のchart-table-JSON-codeの4分割データセットであるChartMoE-Alignを導入する。バニラコネクタと組み合わせ、異なるエキスパートを4つの異なる方法で初期化し、MoEコネクタとLLMパラメータをさらに改良するために高品質な知識学習を採用する。例えば、ChartMoEはChartQAベンチマークにおいて、従来の最先端技術の精度を80.48%から84.64%に向上させた。

要約(オリジナル)

Automatic chart understanding is crucial for content comprehension and document parsing. Multimodal large language models (MLLMs) have demonstrated remarkable capabilities in chart understanding through domain-specific alignment and fine-tuning. However, the application of alignment training within the chart domain is still underexplored. To address this, we propose ChartMoE, which employs the mixture of expert (MoE) architecture to replace the traditional linear projector to bridge the modality gap. Specifically, we train multiple linear connectors through distinct alignment tasks, which are utilized as the foundational initialization parameters for different experts. Additionally, we introduce ChartMoE-Align, a dataset with over 900K chart-table-JSON-code quadruples to conduct three alignment tasks (chart-table/JSON/code). Combined with the vanilla connector, we initialize different experts in four distinct ways and adopt high-quality knowledge learning to further refine the MoE connector and LLM parameters. Extensive experiments demonstrate the effectiveness of the MoE connector and our initialization strategy, e.g., ChartMoE improves the accuracy of the previous state-of-the-art from 80.48% to 84.64% on the ChartQA benchmark.

arxiv情報

著者 Zhengzhuo Xu,Bowen Qu,Yiyan Qi,Sinan Du,Chengjin Xu,Chun Yuan,Jian Guo
発行日 2025-02-04 17:22:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク