DMDD: A Large-Scale Dataset for Dataset Mentions Detection

要約

データセット名の認識は、科学文献内の情報を自動抽出するための重要なタスクであり、研究者が研究機会を理解し特定できるようになります。
ただし、データセットの言及を検出するための既存のコーパスは、サイズと名前の多様性が制限されています。
このペーパーでは、このタスクで公的に利用可能な最大のコーパスである Dataset Mentions Detection Dataset (DMDD) を紹介します。
DMDD は、テキスト内スパンの形式で弱い注釈が付けられた 449,000 を超えるデータセットの言及を含む 31,219 件の科学論文で構成される DMDD メイン コーパスと、評価目的で手動で注釈が付けられた 450 件の科学論文で構成される評価セットで構成されます。
DMDD を使用して、データセットの言及の検出とリンクのベースライン パフォーマンスを確立します。
DMDD 上のさまざまなモデルのパフォーマンスを分析することで、データセットの言及検出における未解決の問題を特定できます。
新しいデータセット言及検出モデルを開発するための課題として、私たちのデータセットを使用するようコミュニティを招待します。

要約(オリジナル)

The recognition of dataset names is a critical task for automatic information extraction in scientific literature, enabling researchers to understand and identify research opportunities. However, existing corpora for dataset mention detection are limited in size and naming diversity. In this paper, we introduce the Dataset Mentions Detection Dataset (DMDD), the largest publicly available corpus for this task. DMDD consists of the DMDD main corpus, comprising 31,219 scientific articles with over 449,000 dataset mentions weakly annotated in the format of in-text spans, and an evaluation set, which comprises of 450 scientific articles manually annotated for evaluation purposes. We use DMDD to establish baseline performance for dataset mention detection and linking. By analyzing the performance of various models on DMDD, we are able to identify open problems in dataset mention detection. We invite the community to use our dataset as a challenge to develop novel dataset mention detection models.

arxiv情報

著者 Huitong Pan,Qi Zhang,Eduard Dragut,Cornelia Caragea,Longin Jan Latecki
発行日 2023-05-19 16:18:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク