SMAuC — The Scientific Multi-Authorship Corpus

要約

タイトル:SMAuC–The Scientific Multi-Authorship Corpus

要約:

– 学術論文の急速な増加は、1人以上の著者がいる文書の著者分析方法の研究に興味深い課題を提供している。
– しかしながら、多くの既存のデータセットは科学的な文書や新しい実験やテストケースを構築するための必要なメタデータが欠けている。
– SMAuCは、科学的著者分析に特化した包括的で豊富なメタデータのコーパスである。
– 5万人以上の著者が関わり、様々な分野で3百万以上の学術テキストで構成されており、明確な著者IDを含む、豊富なメタデータが提供されている。
– SMAuCは、科学的テキストの著者分析の分野を大きく前進させることを目的としている。

要約(オリジナル)

The rapidly growing volume of scientific publications offers an interesting challenge for research on methods for analyzing the authorship of documents with one or more authors. However, most existing datasets lack scientific documents or the necessary metadata for constructing new experiments and test cases. We introduce SMAuC, a comprehensive, metadata-rich corpus tailored to scientific authorship analysis. Comprising over 3 million publications across various disciplines from over 5 million authors, SMAuC is the largest openly accessible corpus for this purpose. It encompasses scientific texts from humanities and natural sciences, accompanied by extensive, curated metadata, including unambiguous author IDs. SMAuC aims to significantly advance the domain of authorship analysis in scientific texts.

arxiv情報

著者 Janek Bevendorff,Philipp Sauer,Lukas Gienapp,Wolfgang Kircheis,Erik Körner,Benno Stein,Martin Potthast
発行日 2023-05-10 12:21:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.DL パーマリンク