DIRI: Adversarial Patient Reidentification with Large Language Models for Evaluating Clinical Text Anonymization

要約

保護された医療情報 (PHI) を共有することは、生物医学研究を推進するために重要です。
データを配布する前に、専門家はテキストに含まれる PHI を削除するために匿名化を実行することがよくあります。
現代の匿名化手法は、高度に飽和したデータセット (ツールはほぼ完璧な精度を実現します) で評価されますが、現実世界の臨床テキストの多様性や複雑さを完全には反映していない可能性があり、それらに注釈を付けるにはリソースが大量に消費されるため、現実世界のアプリケーションへの障壁となっています。
このギャップに対処するために、私たちは大規模言語モデル (LLM) を使用して、編集された臨床メモに対応する患者を再識別する敵対的アプローチを開発し、新しい匿名化/再識別 (DIRI) 方法でパフォーマンスを評価しました。
私たちの方法では、大規模な言語モデルを使用して、編集された臨床メモに対応する患者を再識別します。
私たちは、ルールベースの Philter と 2 つの深層学習ベースのモデル、BiLSTM-CRF および ClinicalBERT の 3 つの匿名化ツールを使用して匿名化された Weill Cornell Medicine からの医療データに対する手法を実証します。
ClinicalBERT が最も効果的で、識別されたすべての PII をマスクしていましたが、私たちのツールは依然として臨床メモの 9% を再識別しました。私たちの研究は、反復的な開発と改善のためのツールを提供しながら、現在の匿名化テクノロジーの重大な弱点を明らかにしています。

要約(オリジナル)

Sharing protected health information (PHI) is critical for furthering biomedical research. Before data can be distributed, practitioners often perform deidentification to remove any PHI contained in the text. Contemporary deidentification methods are evaluated on highly saturated datasets (tools achieve near-perfect accuracy) which may not reflect the full variability or complexity of real-world clinical text and annotating them is resource intensive, which is a barrier to real-world applications. To address this gap, we developed an adversarial approach using a large language model (LLM) to re-identify the patient corresponding to a redacted clinical note and evaluated the performance with a novel De-Identification/Re-Identification (DIRI) method. Our method uses a large language model to reidentify the patient corresponding to a redacted clinical note. We demonstrate our method on medical data from Weill Cornell Medicine anonymized with three deidentification tools: rule-based Philter and two deep-learning-based models, BiLSTM-CRF and ClinicalBERT. Although ClinicalBERT was the most effective, masking all identified PII, our tool still reidentified 9% of clinical notes Our study highlights significant weaknesses in current deidentification technologies while providing a tool for iterative development and improvement.

arxiv情報

著者 John X. Morris,Thomas R. Campion,Sri Laasya Nutheti,Yifan Peng,Akhil Raj,Ramin Zabih,Curtis L. Cole
発行日 2024-10-22 14:06:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク