American Stories: A Large-Scale Structured Text Dataset of Historical U.S. Newspapers

要約

米国のパブリックドメイン新聞の既存の全文データセットは、新聞スキャンの複雑なレイアウトを認識せず、その結果、デジタル化されたコンテンツでは記事、見出し、キャプション、広告、その他のレイアウト領域のテキストがスクランブル化されます。
OCR の品質も低い場合があります。
この研究では、新聞画像から記事テキスト全文を抽出するための新しいディープラーニング パイプラインを開発し、それを米国議会図書館のパブリック ドメイン コレクションである Chronicling America コレクションの約 2,000 万件のスキャンに適用します。
このパイプラインには、レイアウト検出、可読性分類、カスタム OCR、および複数の境界ボックスにまたがる記事テキストの関連付けが含まれます。
高い拡張性を実現するために、携帯電話用に設計された効率的なアーキテクチャで構築されています。
結果として得られる American Stories データセットは、歴史的な英語と歴史的な世界の知識をより深く理解するために大規模な言語モデルを事前トレーニングするために使用できる高品質のデータを提供します。
このデータセットを検索拡張言語モデルの外部データベースに追加して、政治的出来事の解釈から人々の祖先の生活に関する詳細に至るまで、歴史情報をより広くアクセスできるようにすることもできます。
さらに、構造化された記事テキストにより、トピックの分類、複製されたコンテンツの検出、ニュース記事のクラスタリングなどの一般的な社会科学アプリケーションにトランスフォーマーベースの手法を使用することが容易になります。
最後に、American Stories は、マルチモーダル レイアウト解析モデルやその他のマルチモーダル アプリケーションを革新するための大規模なシルバー品質のデータセットを提供します。

要約(オリジナル)

Existing full text datasets of U.S. public domain newspapers do not recognize the often complex layouts of newspaper scans, and as a result the digitized content scrambles texts from articles, headlines, captions, advertisements, and other layout regions. OCR quality can also be low. This study develops a novel, deep learning pipeline for extracting full article texts from newspaper images and applies it to the nearly 20 million scans in Library of Congress’s public domain Chronicling America collection. The pipeline includes layout detection, legibility classification, custom OCR, and association of article texts spanning multiple bounding boxes. To achieve high scalability, it is built with efficient architectures designed for mobile phones. The resulting American Stories dataset provides high quality data that could be used for pre-training a large language model to achieve better understanding of historical English and historical world knowledge. The dataset could also be added to the external database of a retrieval-augmented language model to make historical information – ranging from interpretations of political events to minutiae about the lives of people’s ancestors – more widely accessible. Furthermore, structured article texts facilitate using transformer-based methods for popular social science applications like topic classification, detection of reproduced content, and news story clustering. Finally, American Stories provides a massive silver quality dataset for innovating multimodal layout analysis models and other multimodal applications.

arxiv情報

著者 Melissa Dell,Jacob Carlson,Tom Bryan,Emily Silcock,Abhishek Arora,Zejiang Shen,Luca D’Amico-Wong,Quan Le,Pablo Querubin,Leander Heldring
発行日 2023-08-24 00:24:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, econ.GN, q-fin.EC パーマリンク