StructChart: Perception, Structuring, Reasoning for Visual Chart Understanding

要約

チャートはさまざまな科学分野の文献で一般的に使用されており、読者が簡単にアクセスできる豊富な情報を伝えます。
現在のチャート関連のタスクは、視覚的なチャートから情報を抽出することを指すチャートの認識、または抽出されたデータを考慮して推論を実行することに重点を置いています。
表形式で。
この論文では、共同知覚および推論タスクのための統合されたラベル効率の良い学習パラダイムを確立することを目的としています。これは、ピアワークで特に研究されている質問応答タスクを超えて、さまざまな下流タスクに一般的に適用できます。
具体的には、StructChart はまず、一般的な管形式 (特に線形化された CSV) から、提案された構造化トリプレット表現 (STR) にチャート情報を再定式化します。これは、採用されている構造化情報抽出により、チャートの認識と推論の間のタスク ギャップを削減するのにより適しています。
チャート。
次に、チャート認識タスクのパフォーマンスを定量的に評価するための構造化チャート指向表現メトリック (SCRM) を提案します。
トレーニング用のデータセットを強化するために、大規模言語モデル (LLM) を活用して、グラフの視覚スタイルとその統計情報の両方の観点からグラフの多様性を強化する可能性をさらに検討します。
さまざまなチャート関連のタスクに対して広範な実験が行われ、チャート理解の最前線を押し上げる統一されたチャート認識推論パラダイムの有効性と有望な可能性が実証されています。

要約(オリジナル)

Charts are common in literature across different scientific fields, conveying rich information easily accessible to readers. Current chart-related tasks focus on either chart perception which refers to extracting information from the visual charts, or performing reasoning given the extracted data, e.g. in a tabular form. In this paper, we aim to establish a unified and label-efficient learning paradigm for joint perception and reasoning tasks, which can be generally applicable to different downstream tasks, beyond the question-answering task as specifically studied in peer works. Specifically, StructChart first reformulates the chart information from the popular tubular form (specifically linearized CSV) to the proposed Structured Triplet Representations (STR), which is more friendly for reducing the task gap between chart perception and reasoning due to the employed structured information extraction for charts. We then propose a Structuring Chart-oriented Representation Metric (SCRM) to quantitatively evaluate the performance for the chart perception task. To enrich the dataset for training, we further explore the possibility of leveraging the Large Language Model (LLM), enhancing the chart diversity in terms of both chart visual style and its statistical information. Extensive experiments are conducted on various chart-related tasks, demonstrating the effectiveness and promising potential for a unified chart perception-reasoning paradigm to push the frontier of chart understanding.

arxiv情報

著者 Renqiu Xia,Bo Zhang,Haoyang Peng,Ning Liao,Peng Ye,Botian Shi,Junchi Yan,Yu Qiao
発行日 2023-09-20 12:51:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク