要約
テーブルには、機械の理解に課題をもたらすさまざまな構造や内容を伴う事実および定量的なデータが含まれています。
従来の方法では一般に、タスク固有のアーキテクチャと個々のタスクの目標を設計しており、その結果、モーダルな分離と複雑なワークフローが生じていました。
本稿では、概念相乗メカニズムを備えた新しい大規模視覚言語モデル TabPedia を紹介します。
このメカニズムでは、関連するすべての多様なビジュアル テーブル理解 (VTU) タスクとマルチソース ビジュアル エンベディングが概念として抽象化されます。
この統合フレームワークにより、TabPedia は、大規模言語モデル (LLM) の機能を活用して、テーブル検出、テーブル構造認識、テーブル クエリ、テーブル質問応答などの VTU タスクをシームレスに統合できます。
さらに、概念相乗メカニズムにより、対応するソース認識埋め込みから必要な手がかりを効果的に活用できるため、表認識関連タスクと理解関連タスクが調和して機能することが可能になります。
さらに、現実のシナリオにおける VTU タスクをより適切に評価するために、約 9,000 の QA ペアを特徴とする新しい包括的なテーブル VQA ベンチマークである ComTQA を確立しました。
表の認識と理解の両方のタスクに関する広範な定量的および定性的な実験が、さまざまな公開ベンチマークにわたって実施され、TabPedia の有効性が検証されました。
優れたパフォーマンスは、すべての概念が相乗効果で機能する場合、視覚的なテーブルを理解するために LLM を使用することが可能であることをさらに裏付けます。
ベンチマーク ComTQA は、https://huggingface.co/datasets/ByteDance/ComTQA でオープンソース化されています。
ソース コードとモデルは https://github.com/zhaowc-ustc/TabPedia でも公開されています。
要約(オリジナル)
Tables contain factual and quantitative data accompanied by various structures and contents that pose challenges for machine comprehension. Previous methods generally design task-specific architectures and objectives for individual tasks, resulting in modal isolation and intricate workflows. In this paper, we present a novel large vision-language model, TabPedia, equipped with a concept synergy mechanism. In this mechanism, all the involved diverse visual table understanding (VTU) tasks and multi-source visual embeddings are abstracted as concepts. This unified framework allows TabPedia to seamlessly integrate VTU tasks, such as table detection, table structure recognition, table querying, and table question answering, by leveraging the capabilities of large language models (LLMs). Moreover, the concept synergy mechanism enables table perception-related and comprehension-related tasks to work in harmony, as they can effectively leverage the needed clues from the corresponding source perception embeddings. Furthermore, to better evaluate the VTU task in real-world scenarios, we establish a new and comprehensive table VQA benchmark, ComTQA, featuring approximately 9,000 QA pairs. Extensive quantitative and qualitative experiments on both table perception and comprehension tasks, conducted across various public benchmarks, validate the effectiveness of our TabPedia. The superior performance further confirms the feasibility of using LLMs for understanding visual tables when all concepts work in synergy. The benchmark ComTQA has been open-sourced at https://huggingface.co/datasets/ByteDance/ComTQA. The source code and model also have been released athttps://github.com/zhaowc-ustc/TabPedia.
arxiv情報
著者 | Weichao Zhao,Hao Feng,Qi Liu,Jingqun Tang,Shu Wei,Binghong Wu,Lei Liao,Yongjie Ye,Hao Liu,Wengang Zhou,Houqiang Li,Can Huang |
発行日 | 2024-10-11 14:38:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google