ChartMoE: Mixture of Expert Connector for Advanced Chart Understanding

要約

グラフの自動理解は、内容の理解と文書の解析にとって非常に重要です。
マルチモーダル大規模言語モデル (MLLM) は、ドメイン固有の調整と微調整を通じてチャートを理解する際に優れた機能を実証しました。
ただし、チャート ドメイン内でのアライメント トレーニングの適用については、まだ研究が進んでいません。
これに対処するために、私たちは ChartMoE を提案します。これは、混合エキスパート (MoE) アーキテクチャを採用して、従来のリニア プロジェクターを置き換えてモダリティのギャップを埋めるものです。
具体的には、個別の位置合わせタスクを通じて複数の線形コネクタをトレーニングします。これらのタスクは、さまざまな専門家の基本的な初期化パラメータとして利用されます。
さらに、3 つの位置合わせタスク (チャート テーブル/JSON/コード) を実行するための 90 万を超えるチャート テーブル – JSON コードの 4 倍体を含むデータセットである ChartMoE-Align を紹介します。
バニラ コネクタと組み合わせて、4 つの異なる方法でさまざまなエキスパートを初期化し、高品質の知識学習を採用して MoE コネクタと LLM パラメータをさらに改良します。
広範な実験により、MoE コネクタと初期化戦略の有効性が実証されています。たとえば、ChartMoE は、ChartQA ベンチマークで以前の最先端の精度を 80.48% から 84.64% に向上させます。

要約(オリジナル)

Automatic chart understanding is crucial for content comprehension and document parsing. Multimodal large language models (MLLMs) have demonstrated remarkable capabilities in chart understanding through domain-specific alignment and fine-tuning. However, the application of alignment training within the chart domain is still underexplored. To address this, we propose ChartMoE, which employs the mixture of expert (MoE) architecture to replace the traditional linear projector to bridge the modality gap. Specifically, we train multiple linear connectors through distinct alignment tasks, which are utilized as the foundational initialization parameters for different experts. Additionally, we introduce ChartMoE-Align, a dataset with over 900K chart-table-JSON-code quadruples to conduct three alignment tasks (chart-table/JSON/code). Combined with the vanilla connector, we initialize different experts in four distinct ways and adopt high-quality knowledge learning to further refine the MoE connector and LLM parameters. Extensive experiments demonstrate the effectiveness of the MoE connector and our initialization strategy, e.g., ChartMoE improves the accuracy of the previous state-of-the-art from 80.48% to 84.64% on the ChartQA benchmark.

arxiv情報

著者 Zhengzhuo Xu,Bowen Qu,Yiyan Qi,Sinan Du,Chengjin Xu,Chun Yuan,Jian Guo
発行日 2024-09-05 06:41:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク