ChroniclingAmericaQA: A Large-scale Question Answering Dataset based on Historical American Newspaper Pages

要約

質問応答 (QA) および機械読解 (MRC) タスクは、深層学習技術と、最近では大規模な言語モデルの急速な発展により、近年大幅に進歩しました。
同時に、多くのベンチマーク データセットが QA および MRC タスクに利用できるようになりました。
ただし、既存の大規模ベンチマーク データセットのほとんどは、主に Wikipedia や Web などの同期ドキュメント コレクションを使用して作成されています。
歴史的な新聞などのアーカイブ文書コレクションには、大規模な言語モデルのトレーニングにはまだ広く使用されていない過去の貴重な情報が含まれています。
QA および MRC タスクの進歩にさらに貢献し、以前のデータセットの制限を克服するために、歴史的な新聞コレクション Chronicling America に基づいて作成された 487,000 の質問と回答のペアを含む大規模な時間 QA データセットである ChroniclingAmericaQA を導入します。
私たちのデータセットは、120 年にわたる Chronicling America 新聞コレクションのサブセットから構築されています。
デジタル化された歴史新聞コレクションを利用する際の大きな課題の 1 つは、OCR テキストの品質が低いことです。
したがって、QA モデルの現実的なテストを可能にするために、私たちのデータセットは 3 つの異なる方法で使用できます。つまり、生のノイズのあるコンテンツからの質問に答える、よりクリーンで修正されたバージョンのコンテンツからの質問に答える、新聞紙面のスキャン画像からの質問に答えるというものです。

このことと、ChroniclingAmericaQA が利用可能な QA データセットの中で最も長い期間にわたるという事実により、これは非常にユニークで有用なリソースになります。

要約(オリジナル)

Question answering (QA) and Machine Reading Comprehension (MRC) tasks have significantly advanced in recent years due to the rapid development of deep learning techniques and, more recently, large language models. At the same time, many benchmark datasets have become available for QA and MRC tasks. However, most existing large-scale benchmark datasets have been created predominantly using synchronous document collections like Wikipedia or the Web. Archival document collections, such as historical newspapers, contain valuable information from the past that is still not widely used to train large language models. To further contribute to advancing QA and MRC tasks and to overcome the limitation of previous datasets, we introduce ChroniclingAmericaQA, a large-scale temporal QA dataset with 487K question-answer pairs created based on the historical newspaper collection Chronicling America. Our dataset is constructed from a subset of the Chronicling America newspaper collection spanning 120 years. One of the significant challenges for utilizing digitized historical newspaper collections is the low quality of OCR text. Therefore, to enable realistic testing of QA models, our dataset can be used in three different ways: answering questions from raw and noisy content, answering questions from cleaner, corrected version of the content, as well as answering questions from scanned images of newspaper pages. This and the fact that ChroniclingAmericaQA spans the longest time period among available QA datasets make it quite a unique and useful resource.

arxiv情報

著者 Bhawna Piryani,Jamshid Mozafari,Adam Jatowt
発行日 2024-05-10 17:15:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク