要約
毎日のニュースコンテンツにアクセスすることは、印刷されたコンテンツの不透明さとオンラインソースからの妨害のために、視覚障害や低視力を含む印刷障害のある人々にとって依然として大きな課題です。
この論文では、印刷新聞をHTMLなどのアクセス可能なファイル形式にデジタル化するためのアプローチを紹介します。
新聞のレイアウト分析にインスタンスのセグメンテーションと検出のフレームワークのアンサンブルを使用し、次にOCRを使用して、見出しや記事のテキストなどのテキスト要素を認識します。
さらに、Mask-RCNNフレームワークのEdgeMask損失関数を提案して、セグメンテーションマスク境界を改善し、ダウンストリームOCRタスクの精度を向上させます。
経験的に、提案された損失関数がニュース記事テキストの単語誤り率(WER)を32.5%削減することを示します。
要約(オリジナル)
Accessing daily news content still remains a big challenge for people with print-impairment including blind and low-vision due to opacity of printed content and hindrance from online sources. In this paper, we present our approach for digitization of print newspaper into an accessible file format such as HTML. We use an ensemble of instance segmentation and detection framework for newspaper layout analysis and then OCR to recognize text elements such as headline and article text. Additionally, we propose EdgeMask loss function for Mask-RCNN framework to improve segmentation mask boundary and hence accuracy of downstream OCR task. Empirically, we show that our proposed loss function reduces the Word Error Rate (WER) of news article text by 32.5 %.
arxiv情報
著者 | Vishal Agarwal,Tanuja Ganu,Saikat Guha |
発行日 | 2022-06-23 10:02:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google