Streamlining Social Media Information Retrieval for Public Health Research with Deep Learning

要約

流行監視におけるソーシャルメディアの利用は十分に確立されています。
それにもかかわらず、事前に定義された語彙を使用して関連するコーパスを検索する場合、バイアスが発生することがよくあります。
この研究では、医療口語表現と統一医療言語システム (UMLS) の概念に関する広範な辞書を収集することを目的としたフレームワークを導入します。
このフレームワークは 3 つのモジュールで構成されています。ソーシャル メディア コンテンツから医療エンティティを識別する BERT ベースの固有表現認識 (NER) モデル、抽出されたエンティティを標準化する深層学習を活用した正規化モジュール、およびほとんどのエンティティを割り当てる半教師ありクラスタリング モジュールです。
可能性のある UMLS 概念を標準化された各エンティティに適用します。
このフレームワークを 2020 年 2 月 1 日から 2022 年 4 月 30 日までの新型コロナウイルス感染症 (COVID-19) 関連のツイートに適用し、マッピングされた 9,249 の標準化されたエンティティで構成される症状辞書 (https://github.com/ningkko/UMLS_colloquialism/ で入手可能) を生成しました。
876 の UMLS 概念と 38,175 の口語表現。
このフレームワークは、ソーシャルメディアベースの公衆衛生研究におけるキーワード一致情報検索の制約に対処する上で有望な可能性を示しています。

要約(オリジナル)

The utilization of social media in epidemic surveillance has been well established. Nonetheless, bias is often introduced when pre-defined lexicons are used to retrieve relevant corpus. This study introduces a framework aimed at curating extensive dictionaries of medical colloquialisms and Unified Medical Language System (UMLS) concepts. The framework comprises three modules: a BERT-based Named Entity Recognition (NER) model that identifies medical entities from social media content, a deep-learning powered normalization module that standardizes the extracted entities, and a semi-supervised clustering module that assigns the most probable UMLS concept to each standardized entity. We applied this framework to COVID-19-related tweets from February 1, 2020, to April 30, 2022, generating a symptom dictionary (available at https://github.com/ningkko/UMLS_colloquialism/) composed of 9,249 standardized entities mapped to 876 UMLS concepts and 38,175 colloquial expressions. This framework demonstrates encouraging potential in addressing the constraints of keyword matching information retrieval in social media-based public health research.

arxiv情報

著者 Yining Hua,Shixu Lin,Minghui Li,Yujie Zhang,Peilin Zhou,Ying-Chih Lo,Li Zhou,Jie Yang
発行日 2023-06-28 08:20:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク