CCpdf: Building a High Quality Corpus for Visually Rich Documents from Web Crawl Data


– 文書理解の分野は、近年進歩しています。
– この進歩の大部分は、大量の文書で事前学習された言語モデルの使用によって可能になった。
– しかし、文書理解の領域で使用される事前学習コーパスは単一のドメイン、単一言語、非公開なものが一般的である。
– そこで、本論文では、PDFファイルが文書理解において最も標準的な文書形式であるため、Common Crawlを使用してインターネット上のPDFファイルから大規模かつ多様な多言語コーパスを作成するための効率的なパイプラインを提案する。
– パイプラインのすべてのステップを徹底的に分析し、データ品質と処理時間のトレードオフの解決策を提案する。
– また、CCpdfコーパスをPDFファイルのインデックスの形で共有し、ダウンロードスクリプトと一緒に公開する。
– この論文で公開されるデータセットとツールは、研究者により良い多言語言語モデルを開発する機会を提供する。


In recent years, the field of document understanding has progressed a lot. A significant part of this progress has been possible thanks to the use of language models pretrained on large amounts of documents. However, pretraining corpora used in the domain of document understanding are single domain, monolingual, or nonpublic. Our goal in this paper is to propose an efficient pipeline for creating a big-scale, diverse, multilingual corpus of PDF files from all over the Internet using Common Crawl, as PDF files are the most canonical types of documents as considered in document understanding. We analysed extensively all of the steps of the pipeline and proposed a solution which is a trade-off between data quality and processing time. We also share a CCpdf corpus in a form or an index of PDF files along with a script for downloading them, which produces a collection useful for language model pretraining. The dataset and tools published with this paper offer researchers the opportunity to develop even better multilingual language models.


著者 Michał Turski,Tomasz Stanisławek,Karol Kaczmarek,Paweł Dyda,Filip Graliński
発行日 2023-04-28 16:12:18+00:00
