Incorporating Dictionaries into a Neural Network Architecture to Extract COVID-19 Medical Concepts From Social Media

要約

私たちは、自然言語処理のためのニューラル ネットワーク アーキテクチャに辞書情報を組み込むことの潜在的な利点を調査します。
特に、このアーキテクチャを利用して、オンラインの医療フォーラムから COVID-19 に関連するいくつかの概念を抽出します。
フォーラムのサンプルを使用して、概念ごとに 1 つの辞書を手動で作成します。
さらに、生物医学概念を抽出するツールである MetaMap を使用して、少数の意味概念を特定します。
フォーラム データの教師あり概念抽出タスクでは、最良のモデルはマクロ $F_1$ スコア 90\% を達成しました。
医療コンセプトの抽出における主な困難は、教師付きモデルを構築するためのラベル付きデータを取得することです。
私たちは、異なるソースから得られたデータに転送するためのモデルの有用性を 2 つの方法で調査します。
1 つ目は弱学習によってラベルを生成するため、2 つ目は概念抽出を実行するためです。
このケースで使用するデータセットは COVID-19 関連のツイートで構成されており、弱くラベル付けされたデータでトレーニングされた症状概念抽出で $F_1$ スコア 81\% を達成しました。
私たちの辞書の有用性を、Twitter から直接構築された 新型コロナウイルス感染症の症状辞書と比較します。
BERT と BERTweet の COVID-19 バージョンを組み込んださらなる実験により、辞書が相応の結果をもたらすことが実証されました。
私たちの結果は、小さなドメイン辞書を深層学習モデルに組み込むことで概念抽出タスクを改善できることを示しています。
さらに、辞書を使用して構築されたモデルはよく一般化され、同様のタスクで異なるデータセットに転送できます。

要約(オリジナル)

We investigate the potential benefit of incorporating dictionary information into a neural network architecture for natural language processing. In particular, we make use of this architecture to extract several concepts related to COVID-19 from an on-line medical forum. We use a sample from the forum to manually curate one dictionary for each concept. In addition, we use MetaMap, which is a tool for extracting biomedical concepts, to identify a small number of semantic concepts. For a supervised concept extraction task on the forum data, our best model achieved a macro $F_1$ score of 90\%. A major difficulty in medical concept extraction is obtaining labelled data from which to build supervised models. We investigate the utility of our models to transfer to data derived from a different source in two ways. First for producing labels via weak learning and second to perform concept extraction. The dataset we use in this case comprises COVID-19 related tweets and we achieve an $F_1$ score 81\% for symptom concept extraction trained on weakly labelled data. The utility of our dictionaries is compared with a COVID-19 symptom dictionary that was constructed directly from Twitter. Further experiments that incorporate BERT and a COVID-19 version of BERTweet demonstrate that the dictionaries provide a commensurate result. Our results show that incorporating small domain dictionaries to deep learning models can improve concept extraction tasks. Moreover, models built using dictionaries generalize well and are transferable to different datasets on a similar task.

arxiv情報

著者 Abul Hasan,Mark Levene,David Weston
発行日 2023-09-05 12:47:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SI パーマリンク