unarXive 2022: All arXiv Publications Pre-Processed for NLP, Including Structured Full-Text and Citation Network

要約

学術出版物に関する大規模なデータ セットは、さまざまな文献分析や自然言語処理 (NLP) アプリケーションの基礎となります。
特に、出版物の全文から派生したデータ セットが最近注目を集めています。
そのようなデータセットはすでにいくつか存在しますが、ドメインと時間の範囲、引用ネットワークの完全性、および全文コンテンツの表現に関して、重要な欠点が見られます。
これらの点に対処するために、データセット unarXive の新しいバージョンを提案します。
データ処理パイプラインと出力形式は、2 つの既存のデータ セットに基づいており、それぞれを改善しています。
得られたデータセットは、複数の分野と 32 年にわたる 190 万の出版物で構成されています。
さらに、前任者よりも完全な引用ネットワークを備えており、ドキュメント構造のより豊富な表現と、数学表記などのテキスト以外の出版物コンテンツを保持しています。
データセットに加えて、引用の推奨と IMRaD 分類のためにすぐに使用できるトレーニング/テスト データを提供します。
すべてのデータとソース コードは、https://github.com/IllDepence/unarXive で公開されています。

要約(オリジナル)

Large-scale data sets on scholarly publications are the basis for a variety of bibliometric analyses and natural language processing (NLP) applications. Especially data sets derived from publication’s full-text have recently gained attention. While several such data sets already exist, we see key shortcomings in terms of their domain and time coverage, citation network completeness, and representation of full-text content. To address these points, we propose a new version of the data set unarXive. We base our data processing pipeline and output format on two existing data sets, and improve on each of them. Our resulting data set comprises 1.9 M publications spanning multiple disciplines and 32 years. It furthermore has a more complete citation network than its predecessors and retains a richer representation of document structure as well as non-textual publication content such as mathematical notation. In addition to the data set, we provide ready-to-use training/test data for citation recommendation and IMRaD classification. All data and source code is publicly available at https://github.com/IllDepence/unarXive.

arxiv情報

著者 Tarek Saier,Johan Krause,Michael Färber
発行日 2023-03-27 07:40:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DL パーマリンク