要約
ドメイン固有のタスク向けにマルチモーダル大規模言語モデル (MLLM) をカスタマイズする最近の研究では、特に科学的な図表の理解の分野で有望な結果が得られています。
これらの研究では一般に、特殊なデータセットを使用した視覚的な指示の調整を利用して、チャート ドメイン内の質問と回答 (QA) の精度を高めます。
ただし、自然な画像キャプションの事前トレーニング データとデジタル チャート画像の QA データの間の基本的な矛盾、特にチャートから基礎となる数値を抽出するモデルの能力の根本的な矛盾が無視されることがよくあります。
この文書では、MLLM のチャートの理解を向上させるために必要なトレーニング プロセスを調査することで、この見落としに取り組みます。
3 つの重要な発見を紹介します。 (1) アライメントの事前トレーニングに生のデータ値を組み込むと、チャート データの理解が著しく向上します。
(2) エンドツーエンドの微調整中に画像をテキスト表現でランダムに置き換えることで、言語推論能力がチャート解釈スキルに移行します。
(3) 最初に基礎となるチャート データを抽出し、次に微調整で質問に答えることをモデルに要求すると、精度をさらに向上させることができます。
したがって、チャートを深く理解するために調整された MLLM である CHOPINLLM を紹介します。
CHOPINLLM は、堅牢な推論能力を維持しながら、注釈のないチャートを含むさまざまなタイプのチャートを効果的に解釈します。
さらに、MLLM のさまざまな理解レベルにわたるさまざまなチャート タイプの理解を評価するための新しいベンチマークを確立します。
実験結果は、CHOPINLLM が幅広い種類の注釈付きチャートと注釈なしチャートの両方を理解する際に優れたパフォーマンスを発揮することを示しています。
要約(オリジナル)
Recent studies customizing Multimodal Large Language Models (MLLMs) for domain-specific tasks have yielded promising results, especially in the field of scientific chart comprehension. These studies generally utilize visual instruction tuning with specialized datasets to enhance question and answer (QA) accuracy within the chart domain. However, they often neglect the fundamental discrepancy between natural image-caption pre-training data and digital chart image-QA data, particularly in the models’ capacity to extract underlying numeric values from charts. This paper tackles this oversight by exploring the training processes necessary to improve MLLMs’ comprehension of charts. We present three key findings: (1) Incorporating raw data values in alignment pre-training markedly improves comprehension of chart data. (2) Replacing images with their textual representation randomly during end-to-end fine-tuning transfer the language reasoning capability to chart interpretation skills. (3) Requiring the model to first extract the underlying chart data and then answer the question in the fine-tuning can further improve the accuracy. Consequently, we introduce CHOPINLLM, an MLLM tailored for in-depth chart comprehension. CHOPINLLM effectively interprets various types of charts, including unannotated ones, while maintaining robust reasoning abilities. Furthermore, we establish a new benchmark to evaluate MLLMs’ understanding of different chart types across various comprehension levels. Experimental results show that CHOPINLLM exhibits strong performance in understanding both annotated and unannotated charts across a wide range of types.
arxiv情報
著者 | Wan-Cyuan Fan,Yen-Chun Chen,Mengchen Liu,Lu Yuan,Leonid Sigal |
発行日 | 2024-07-19 17:58:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google