要約
最近の大規模言語モデル (LLM) は高度なテーブル理解機能を備えていますが、テーブルをテキスト シーケンスに変換することに依存しています。
マルチモーダル大規模言語モデル (MLLM) は直接的な視覚処理を可能にしますが、入力画像の解像度が固定されており、数値推論機能が不十分であるため、科学表の処理には制限があります。
動的な入力画像解像度を使用したマルチモーダル科学テーブルの理解と推論のための包括的なフレームワークを紹介します。
私たちのフレームワークは 3 つの主要なコンポーネントで構成されています: (1) MMSci-Pre、52K 科学テーブル構造認識サンプルのドメイン固有のテーブル構造学習データセット、(2) MMSci-Ins、3 つのテーブルベースにわたる 12K サンプルを含む命令調整データセット
(3) MMSci-Eval は、数値推論能力を評価するために特別に設計された 3,114 個のテスト サンプルを含むベンチマークです。
広範な実験により、52K 科学テーブル画像を使用したドメイン固有のアプローチが 150K の一般ドメイン テーブルと比較して優れたパフォーマンスを達成することが実証され、量よりもデータの品質の重要性が強調されています。
私たちが提案する動的入力解像度を備えたテーブルベースの MLLM は、保持されたデータセットに対する強力な一般化により、一般的なテーブルの理解と数値推論能力の両方において大幅な改善を示しています。
私たちのコードとデータは https://github.com/Bernard-Yang/MMSci_Table で公開されています。
要約(オリジナル)
Recent large language models (LLMs) have advanced table understanding capabilities but rely on converting tables into text sequences. While multimodal large language models (MLLMs) enable direct visual processing, they face limitations in handling scientific tables due to fixed input image resolutions and insufficient numerical reasoning capabilities. We present a comprehensive framework for multimodal scientific table understanding and reasoning with dynamic input image resolutions. Our framework consists of three key components: (1) MMSci-Pre, a domain-specific table structure learning dataset of 52K scientific table structure recognition samples, (2) MMSci-Ins, an instruction tuning dataset with 12K samples across three table-based tasks, and (3) MMSci-Eval, a benchmark with 3,114 testing samples specifically designed to evaluate numerical reasoning capabilities. Extensive experiments demonstrate that our domain-specific approach with 52K scientific table images achieves superior performance compared to 150K general-domain tables, highlighting the importance of data quality over quantity. Our proposed table-based MLLMs with dynamic input resolutions show significant improvements in both general table understanding and numerical reasoning capabilities, with strong generalisation to held-out datasets. Our code and data are publicly available at https://github.com/Bernard-Yang/MMSci_Table.
arxiv情報
著者 | Bohao Yang,Yingji Zhang,Dong Liu,André Freitas,Chenghua Lin |
発行日 | 2025-01-22 17:44:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google