Line Graphics Digitization: A Step Towards Full Automation

要約

文書のデジタル化により、より幅広いアクセシビリティと再現性が可能になります。
文書レイアウトとテキスト内容の自動デジタル化は長年研究の焦点となってきましたが、統計プロットなどのグラフィック要素に関するこの問題は十分に調査されていませんでした。
この論文では、数学的グラフィックスをきめ細かく視覚的に理解するタスクを紹介し、5 つの粗いカテゴリと 10 のきめ細かいカテゴリのピクセル単位の注釈を含む Line Graphics (LG) データセットを紹介します。
私たちのデータセットは、さまざまな分野の 450 の文書から収集された数学グラフィックスの 520 枚の画像をカバーしています。
私たちが提案するデータセットは、セマンティック セグメンテーションとオブジェクト検出という 2 つの異なるコンピューター ビジョン タスクをサポートできます。
LG データセットのベンチマークを行うために、7 つの最先端のモデルを調査します。
統計グラフのデジタル化に関するさらなる研究を促進するために、データセット、コード、モデルをコミュニティに公開します。

要約(オリジナル)

The digitization of documents allows for wider accessibility and reproducibility. While automatic digitization of document layout and text content has been a long-standing focus of research, this problem in regard to graphical elements, such as statistical plots, has been under-explored. In this paper, we introduce the task of fine-grained visual understanding of mathematical graphics and present the Line Graphics (LG) dataset, which includes pixel-wise annotations of 5 coarse and 10 fine-grained categories. Our dataset covers 520 images of mathematical graphics collected from 450 documents from different disciplines. Our proposed dataset can support two different computer vision tasks, i.e., semantic segmentation and object detection. To benchmark our LG dataset, we explore 7 state-of-the-art models. To foster further research on the digitization of statistical graphs, we will make the dataset, code, and models publicly available to the community.

arxiv情報

著者 Omar Moured,Jiaming Zhang,Alina Roitberg,Thorsten Schwarz,Rainer Stiefelhagen
発行日 2023-07-05 07:08:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク