要約
脆弱な集団のCovid-19状態(PCC)後の有病率、格差、および症状の変動を理解することは、ケアを改善し、不平等の交差する対処に不可欠です。
この研究の目的は、PCC症例報告内のSDOH表現の格差とバリエーションを分析するためにNLP技術を活用することにより、健康の社会的決定要因(SDOH)をPCC研究に統合するための包括的なフレームワークを開発することを目的としています。
Litcovidリポジトリからの7,000を超える症例報告で構成されるPCC症例報告コーパスの構築に続いて、709のレポートのサブセットに、事前に訓練された名前付きエンティティ認識(NER)モデル、Human Review、、およびHuman Review、、およびHuman Review、、および26のコアSDOH関連エンティティタイプが注釈されました。
エンティティタイプの品質、多様性、表現を改善するためのデータ増強。
NER、自然言語推論(NLI)、TRIGRAM、および周波数分析を統合するNLPパイプラインが、これらのエンティティを抽出および分析するために開発されました。
エンコーダーのみのトランスモデルとRNNベースのモデルの両方が、NER目標について評価されました。
微調整されたエンコーダーのみのBERTモデルは、異なる文構造とより大きなクラスの球位に一般化された従来のRNNベースのモデルよりも優れていました。
探索的分析により、エンティティの豊富さの変動性が明らかになり、条件、年齢、ケアへのアクセスなどの一般的なエンティティがあり、人種や住宅の状態などのデリケートなカテゴリの過小評価がありました。
TRIGRAM分析では、年齢、性別、状態を含む事業体間の頻繁な共起を強調しました。
NLIの目的(誘惑と矛盾分析)は、「経験豊富な暴力や虐待」や「医療保険に加入している」などの属性を示しました。
、 ‘および「末端条件があります」は高い矛盾率(70.8%-98.5%)を示しました。
要約(オリジナル)
Understanding the prevalence, disparities, and symptom variations of Post COVID-19 Condition (PCC) for vulnerable populations is crucial to improving care and addressing intersecting inequities. This study aims to develop a comprehensive framework for integrating social determinants of health (SDOH) into PCC research by leveraging NLP techniques to analyze disparities and variations in SDOH representation within PCC case reports. Following construction of a PCC Case Report Corpus, comprising over 7,000 case reports from the LitCOVID repository, a subset of 709 reports were annotated with 26 core SDOH-related entity types using pre-trained named entity recognition (NER) models, human review, and data augmentation to improve quality, diversity and representation of entity types. An NLP pipeline integrating NER, natural language inference (NLI), trigram and frequency analyses was developed to extract and analyze these entities. Both encoder-only transformer models and RNN-based models were assessed for the NER objective. Fine-tuned encoder-only BERT models outperformed traditional RNN-based models in generalizability to distinct sentence structures and greater class sparsity. Exploratory analysis revealed variability in entity richness, with prevalent entities like condition, age, and access to care, and underrepresentation of sensitive categories like race and housing status. Trigram analysis highlighted frequent co-occurrences among entities, including age, gender, and condition. The NLI objective (entailment and contradiction analysis) showed attributes like ‘Experienced violence or abuse’ and ‘Has medical insurance’ had high entailment rates (82.4%-80.3%), while attributes such as ‘Is female-identifying,’ ‘Is married,’ and ‘Has a terminal condition’ exhibited high contradiction rates (70.8%-98.5%).
arxiv情報
著者 | Juan Andres Medina Florez,Shaina Raza,Rashida Lynn,Zahra Shakeri,Brendan T. Smith,Elham Dolatabadi |
発行日 | 2025-01-23 14:38:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google