American Stories: A Large-Scale Structured Text Dataset of Historical U.S. Newspapers


OCR の品質も低い場合があります。
この研究では、新聞画像から記事テキスト全文を抽出するための新しいディープラーニング パイプラインを開発し、それを米国議会図書館のパブリック ドメイン コレクションである Chronicling America コレクションの約 2,000 万件のスキャンに適用します。
このパイプラインには、レイアウト検出、可読性分類、カスタム OCR、および複数の境界ボックスにまたがる記事テキストの関連付けが含まれます。
結果として得られる American Stories データセットは、歴史的な英語と歴史的な世界の知識をより深く理解するために大規模な言語モデルを事前トレーニングするために使用できる高品質のデータを提供します。
最後に、American Stories は、マルチモーダル レイアウト解析モデルやその他のマルチモーダル アプリケーションを革新するための大規模なシルバー品質のデータセットを提供します。


Existing full text datasets of U.S. public domain newspapers do not recognize the often complex layouts of newspaper scans, and as a result the digitized content scrambles texts from articles, headlines, captions, advertisements, and other layout regions. OCR quality can also be low. This study develops a novel, deep learning pipeline for extracting full article texts from newspaper images and applies it to the nearly 20 million scans in Library of Congress’s public domain Chronicling America collection. The pipeline includes layout detection, legibility classification, custom OCR, and association of article texts spanning multiple bounding boxes. To achieve high scalability, it is built with efficient architectures designed for mobile phones. The resulting American Stories dataset provides high quality data that could be used for pre-training a large language model to achieve better understanding of historical English and historical world knowledge. The dataset could also be added to the external database of a retrieval-augmented language model to make historical information – ranging from interpretations of political events to minutiae about the lives of people’s ancestors – more widely accessible. Furthermore, structured article texts facilitate using transformer-based methods for popular social science applications like topic classification, detection of reproduced content, and news story clustering. Finally, American Stories provides a massive silver quality dataset for innovating multimodal layout analysis models and other multimodal applications.


著者 Melissa Dell,Jacob Carlson,Tom Bryan,Emily Silcock,Abhishek Arora,Zejiang Shen,Luca D’Amico-Wong,Quan Le,Pablo Querubin,Leander Heldring
発行日 2023-08-24 00:24:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.CV, econ.GN, q-fin.EC パーマリンク