Constructing the CORD-19 Vaccine Dataset


特に COVID-19 ワクチン関連の研究を検討している科学者に対応するために、新しいデータセット「CORD-19-Vaccination」を導入します。
このデータセットは CORD-19 データセット [Wang et al., 2020] から抽出され、言語の詳細、著者人口統計、キーワード、論文ごとのトピックに関する新しい列が追加されています。
Facebook の fastText モデルは言語を識別するために使用されます [Joulin et al., 2016]。
著者の人口統計 (著者の所属、研究室/機関の所在地、研究室/機関の国列) を確立するために、各論文の JSON ファイルを処理し、Google の検索 API を使用してさらに強化して国の値を決定しました。
各論文のタイトル、要約、本文からキーワードを抽出するために「Yake」が使用され、トピック情報を追加するために LDA (Latent Dirichlet Allocation) アルゴリズムが使用されました [Campos et al., 2020, 2018a,b]。
データセットを評価するために、CORD-19 Kaggle チャレンジで使用されたような質問応答タスクをデモンストレーションします [Goldbloom et al., 2022]。
さらなる評価のために、Dernoncourt らのモデルを使用して各論文の要約に対して逐次文分類が実行されました。
トレーニング データセットに部分的に手動でアノテーションを付け、事前トレーニングされた BERT-PubMed レイヤーを使用しました。
「CORD-19-Vaccination」には 30,000 件の研究論文が含まれており、新型コロナウイルス感染症ワクチン研究の分野に特有のテキストマイニング、情報抽出、質問応答などの NLP 研究にとって非常に価値があります。


We introduce new dataset ‘CORD-19-Vaccination’ to cater to scientists specifically looking into COVID-19 vaccine-related research. This dataset is extracted from CORD-19 dataset [Wang et al., 2020] and augmented with new columns for language detail, author demography, keywords, and topic per paper. Facebook’s fastText model is used to identify languages [Joulin et al., 2016]. To establish author demography (author affiliation, lab/institution location, and lab/institution country columns) we processed the JSON file for each paper and then further enhanced using Google’s search API to determine country values. ‘Yake’ was used to extract keywords from the title, abstract, and body of each paper and the LDA (Latent Dirichlet Allocation) algorithm was used to add topic information [Campos et al., 2020, 2018a,b]. To evaluate the dataset, we demonstrate a question-answering task like the one used in the CORD-19 Kaggle challenge [Goldbloom et al., 2022]. For further evaluation, sequential sentence classification was performed on each paper’s abstract using the model from Dernoncourt et al. [2016]. We partially hand annotated the training dataset and used a pre-trained BERT-PubMed layer. ‘CORD- 19-Vaccination’ contains 30k research papers and can be immensely valuable for NLP research such as text mining, information extraction, and question answering, specific to the domain of COVID-19 vaccine research.


著者 Manisha Singh,Divy Sharma,Alonso Ma,Bridget Tyree,Margaret Mitchell
発行日 2024-07-26 02:44:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.IR, cs.LG パーマリンク