要約
インフォグラフィックは、基礎となる複雑な情報をより簡単に理解できるようにするため、定性的または定量的な調査結果を報告するための科学文書の不可欠な要素であることがよくあります。
しかし、それらの解釈は、盲人、ロービジョン、およびその他の活字障害 (BLV) の個人にとって引き続き課題となっています。
この論文では、深層学習、OCR、および画像処理技術を活用して研究論文からすべての図を抽出し、それらをさまざまなチャート カテゴリ (棒グラフ、折れ線グラフなど) に分類して取得する、完全に自動化されたパイプラインである ChartParser を提案します。
それらからの関連情報、特に棒グラフ (横棒グラフ、縦棒グラフ、積み上げ横棒グラフ、積み上げ縦棒グラフを含む) には、すでにいくつかのエキサイティングな課題があります。
最後に、取得したコンテンツを、スクリーン リーダーが使いやすく、BLV ユーザーがアクセスできる表形式で表示します。
パイプラインを適用して、研究論文から実世界の注釈付き棒グラフをサンプリングすることにより、アプローチの徹底的な評価を提示します。
要約(オリジナル)
Infographics are often an integral component of scientific documents for reporting qualitative or quantitative findings as they make it much simpler to comprehend the underlying complex information. However, their interpretation continues to be a challenge for the blind, low-vision, and other print-impaired (BLV) individuals. In this paper, we propose ChartParser, a fully automated pipeline that leverages deep learning, OCR, and image processing techniques to extract all figures from a research paper, classify them into various chart categories (bar chart, line chart, etc.) and obtain relevant information from them, specifically bar charts (including horizontal, vertical, stacked horizontal and stacked vertical charts) which already have several exciting challenges. Finally, we present the retrieved content in a tabular format that is screen-reader friendly and accessible to the BLV users. We present a thorough evaluation of our approach by applying our pipeline to sample real-world annotated bar charts from research papers.
arxiv情報
著者 | Anukriti Kumar,Tanuja Ganu,Saikat Guha |
発行日 | 2022-11-16 12:19:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google