要約
タイトル:「heuristicルールを必要としないチャートの解析および理解のための統一されたフレームワーク:ChartReader」
要約:
– チャートは複雑なデータを視覚的に伝える強力なツールであるが、異なるチャートタイプや入り組んだコンポーネントによって理解が難しいものとなっている。
– 既存のチャート理解方法は、heuristicルールまたはOCRシステムに過度に依存しており、性能が劣るため、問題がある。
– これらの問題に対処するため、ChartReaderを提案する。これは、チャートの解析および理解タスクをシームレスに統合する統一されたフレームワークである。
– 我々のアプローチは、transformerベースのチャートコンポーネント検出モジュールと、チャートからXタスクのための拡張された事前学習モデルを含んでいる。
– 注釈付きデータセットからチャートのルールを自動的に学習することにより、手動のルール作成の必要性を排除し、労力を削減し精度を向上する。
– データ変数の置換テクニックを紹介し、事前学習モデルの入力と位置埋め込みを拡張し、クロスタスクトレーニングを行う。
– ChartReaderをChart-to-Table、ChartQA、およびChart-to-Textタスクで評価し、既存の方法よりも優れた性能を示した。
– 我々の提案するフレームワークは、チャート分析における手動の労力を大幅に減らすことができ、普遍的なチャート理解モデルに向けた一歩を踏み出すことができる。また、我々のアプローチは、T5やTaPasなどの主流のLLMとのプラグアンドプレイ統合の機会を提供し、これらの能力をチャート理解タスクに拡張することができる。
要約(オリジナル)
Charts are a powerful tool for visually conveying complex data, but their comprehension poses a challenge due to the diverse chart types and intricate components. Existing chart comprehension methods suffer from either heuristic rules or an over-reliance on OCR systems, resulting in suboptimal performance. To address these issues, we present ChartReader, a unified framework that seamlessly integrates chart derendering and comprehension tasks. Our approach includes a transformer-based chart component detection module and an extended pre-trained vision-language model for chart-to-X tasks. By learning the rules of charts automatically from annotated datasets, our approach eliminates the need for manual rule-making, reducing effort and enhancing accuracy.~We also introduce a data variable replacement technique and extend the input and position embeddings of the pre-trained model for cross-task training. We evaluate ChartReader on Chart-to-Table, ChartQA, and Chart-to-Text tasks, demonstrating its superiority over existing methods. Our proposed framework can significantly reduce the manual effort involved in chart analysis, providing a step towards a universal chart understanding model. Moreover, our approach offers opportunities for plug-and-play integration with mainstream LLMs such as T5 and TaPas, extending their capability to chart comprehension tasks. The code is available at https://github.com/zhiqic/ChartReader.
arxiv情報
| 著者 | Zhi-Qi Cheng,Qi Dai,Siyao Li,Jingdong Sun,Teruko Mitamura,Alexander G. Hauptmann | 
| 発行日 | 2023-04-05 00:25:27+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, OpenAI
