Generalizing through Forgetting — Domain Generalization for Symptom Event Extraction in Clinical Notes

要約

症状情報は、主にフリーテキストの臨床ノートに記載されており、ダウンストリーム アプリケーションで直接アクセスすることはできません。
この課題に対処するには、さまざまな機関や専門分野にわたる臨床言語のバリエーションを処理できる情報抽出アプローチが必要です。
このホワイト ペーパーでは、事前トレーニングおよび微調整データを使用した症状抽出のためのドメインの一般化を提示します。
変圧器ベースの結合エンティティと関係抽出メソッドを使用して症状イベントを抽出します。
ドメイン固有の機能への依存を減らすために、ソース ドメインで頻繁に発生する症状の単語を動的にマスクするドメイン一般化手法を提案します。
さらに、より適切に表現するために、タスク関連のラベルのないテキストでトランスフォーマー言語モデル (LM) を事前トレーニングします。
私たちの実験では、ソース ドメインがターゲット ドメインから離れている場合に、マスキングおよび適応型事前トレーニング メソッドによってパフォーマンスが大幅に向上することが示されています。

要約(オリジナル)

Symptom information is primarily documented in free-text clinical notes and is not directly accessible for downstream applications. To address this challenge, information extraction approaches that can handle clinical language variation across different institutions and specialties are needed. In this paper, we present domain generalization for symptom extraction using pretraining and fine-tuning data that differs from the target domain in terms of institution and/or specialty and patient population. We extract symptom events using a transformer-based joint entity and relation extraction method. To reduce reliance on domain-specific features, we propose a domain generalization method that dynamically masks frequent symptoms words in the source domain. Additionally, we pretrain the transformer language model (LM) on task-related unlabeled texts for better representation. Our experiments indicate that masking and adaptive pretraining methods can significantly improve performance when the source domain is more distant from the target domain.

arxiv情報

著者 Sitong Zhou,Kevin Lybarger,Meliha Yetisgen,Mari Ostendorf
発行日 2023-02-23 20:57:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク