TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning

要約

グラフは、複雑なデータの関係を示し、説明するために重要です。
最近、マルチモーダル大規模言語モデル (MLLM) は、さまざまなチャート理解タスクにおいて顕著な機能を示しています。
ただし、パラメーターと計算要件の点でこれらのモデルのサイズが非常に大きいため、リソースに制約のある環境での使用は制限されます。
このペーパーでは、わずか 3B パラメーターでチャートを理解するための効率的な MLLM である TinyChart を紹介します。
TinyChart は、効率的なチャート理解における 2 つの重要な課題を克服します。(1) 数値計算用の Python プログラムを生成するようにモデルをトレーニングする、思考プログラム (PoT) 学習戦略を通じて、数値計算の学習の負担を軽減します。(2) 数値計算の学習の負担を軽減します。
ビジョン トークン マージ モジュールを介して、高解像度画像のビジョン トランスフォーマーによって生成された長いビジョン特徴シーケンス。これにより、最も類似したビジョン トークンが徐々にマージされます。
広範な実験により、当社の 3B TinyChart が、ChartQA、Chart-to-Text、Chart-to-Table、OpenCQA、ChartX などのさまざまなチャート理解ベンチマークで SOTA パフォーマンスを達成することが実証されています。
これは、ChartLlama や ChartAst などの最大 13B パラメータを備えたいくつかのチャート理解 MLLM や、ChartQA のクローズソースの汎用 MLLM GPT-4V よりも優れています。
また、モデルの規模が小さくなり、ビジョン エンコーディングがより効率化されるため、推論中のスループットが向上し、優れた効率性を発揮します。
コードとモデルは https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/TinyChart で入手できます。

要約(オリジナル)

Charts are important for presenting and explaining complex data relationships. Recently, multimodal large language models (MLLMs) have shown remarkable capabilities in various chart understanding tasks. However, the sheer size of these models in terms of parameters and computational requirements limits their use in resource-constrained environments. In this paper, we present TinyChart, an efficient MLLM for chart understanding with only 3B parameters. TinyChart overcomes two key challenges in efficient chart understanding: (1) reduce the burden of learning numerical computations through a Program-of-Thoughts (PoT) learning strategy, which trains the model to generate Python programs for numerical calculations, and (2) reduce lengthy vision feature sequences produced by the vision transformer for high-resolution images through a Vision Token Merging module, which gradually merges most similar vision tokens. Extensive experiments demonstrate that our 3B TinyChart achieves SOTA performance on a variety of chart understanding benchmarks including ChartQA, Chart-to-Text, Chart-to-Table, OpenCQA, and ChartX. It outperforms several chart understanding MLLM with up to 13B parameters such as ChartLlama and ChartAst, and close-sourced general-purpose MLLM GPT-4V on ChartQA. It also demonstrates its superior efficiency with higher throughput during inference due to a smaller model scale and more efficient vision encoding. Our code and model are available at https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/TinyChart.

arxiv情報

著者 Liang Zhang,Anwen Hu,Haiyang Xu,Ming Yan,Yichen Xu,Qin Jin,Ji Zhang,Fei Huang
発行日 2024-04-25 14:23:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク