The 2022 n2c2/UW Shared Task on Extracting Social Determinants of Health

要約

目的: n2c2/UW SDOH チャレンジは、臨床ノートからの健康の社会的決定要因 (SDOH) 情報の抽出を調査します。
目的には、SDOH の自然言語処理 (NLP) 情報抽出技術の進歩と、より広範な臨床情報が含まれます。
このホワイト ペーパーでは、共有タスク、データ、参加チーム、パフォーマンス結果、および今後の作業に関する考慮事項について説明します。
材料と方法: このタスクでは、アルコール、薬物、タバコ、雇用、生活状況などの SDOH イベントの詳細なイベントベースの注釈を含む臨床テキストで構成される社会史注釈付き​​コーパス (SHAC) を使用しました。
各 SDOH イベントは、ステータス、範囲、一時性に関連する属性によって特徴付けられます。
タスクには、情報抽出 (サブタスク A)、一般化 (サブタスク B)、および学習転移 (サブタスク C) に関連する 3 つのサブタスクが含まれます。
このタスクに対処する際に、参加者は、ルール、知識ベース、n-gram、単語埋め込み、事前トレーニング済み言語モデル (LM) など、さまざまな手法を利用しました。
結果: 合計 15 チームが参加し、上位チームは事前トレーニング済みの深層学習 LM を利用しました。
すべてのサブタスクの上位チームは、sequence-to-sequence アプローチを使用して、サブタスク A で 0.901 F1、サブタスク B で 0.774 F1、サブタスク C で 0.889 F1 を達成しました。
一般化可能性と学習転移を含みます。
エラー分析は、SDOH によって抽出性能が異なることを示しており、物質の使用やホームレスなどの健康リスク (危険因子) を増加させる条件ではより低い性能が達成され、健康リスクを軽減する物質の禁欲や家族との同居などの条件ではより高い性能が達成されます。
(保護因子)。

要約(オリジナル)

Objective: The n2c2/UW SDOH Challenge explores the extraction of social determinant of health (SDOH) information from clinical notes. The objectives include the advancement of natural language processing (NLP) information extraction techniques for SDOH and clinical information more broadly. This paper presents the shared task, data, participating teams, performance results, and considerations for future work. Materials and Methods: The task used the Social History Annotated Corpus (SHAC), which consists of clinical text with detailed event-based annotations for SDOH events such as alcohol, drug, tobacco, employment, and living situation. Each SDOH event is characterized through attributes related to status, extent, and temporality. The task includes three subtasks related to information extraction (Subtask A), generalizability (Subtask B), and learning transfer (Subtask C). In addressing this task, participants utilized a range of techniques, including rules, knowledge bases, n-grams, word embeddings, and pretrained language models (LM). Results: A total of 15 teams participated, and the top teams utilized pretrained deep learning LM. The top team across all subtasks used a sequence-to-sequence approach achieving 0.901 F1 for Subtask A, 0.774 F1 Subtask B, and 0.889 F1 for Subtask C. Conclusions: Similar to many NLP tasks and domains, pretrained LM yielded the best performance, including generalizability and learning transfer. An error analysis indicates extraction performance varies by SDOH, with lower performance achieved for conditions, like substance use and homelessness, that increase health risks (risk factors) and higher performance achieved for conditions, like substance abstinence and living with family, that reduce health risks (protective factors).

arxiv情報

著者 Kevin Lybarger,Meliha Yetisgen,Özlem Uzuner
発行日 2023-02-13 20:08:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク