Development and validation of a natural language processing algorithm to pseudonymize documents in the context of a clinical data warehouse

要約

この研究の目的は、患者のプライバシーを確​​保しながら、研究目的でデータへのアクセスを許可するために、臨床レポートの匿名化という重要な問題に対処することです。
この研究は、この分野でツールとリソースを共有する際に直面する困難を強調し、大パリ大学病院 (AP-HP) が臨床データ ウェアハウスからテキスト ドキュメントの体系的な仮名化を実装した経験を示しています。
12種類の識別エンティティに従って臨床文書のコーパスに注釈を付け、ディープラーニングモデルの結果と手動ルールをマージするハイブリッドシステムを構築しました。
私たちの結果は、F1 スコアの 0.99 の全体的なパフォーマンスを示しています。
データセットのサイズ、ドキュメントの種類、言語モデル、ルールの追加など、そのようなタスクに伴う労力をよりよく理解するために、実装の選択について説明し、実験を提示します。
3 条項 BSD ライセンスの下で、ガイドラインとコードを共有しています。

要約(オリジナル)

The objective of this study is to address the critical issue of de-identification of clinical reports in order to allow access to data for research purposes, while ensuring patient privacy. The study highlights the difficulties faced in sharing tools and resources in this domain and presents the experience of the Greater Paris University Hospitals (AP-HP) in implementing a systematic pseudonymization of text documents from its Clinical Data Warehouse. We annotated a corpus of clinical documents according to 12 types of identifying entities, and built a hybrid system, merging the results of a deep learning model as well as manual rules. Our results show an overall performance of 0.99 of F1-score. We discuss implementation choices and present experiments to better understand the effort involved in such a task, including dataset size, document types, language models, or rule addition. We share guidelines and code under a 3-Clause BSD license.

arxiv情報

著者 Xavier Tannier,Perceval Wajsbürt,Alice Calliger,Basile Dura,Alexandre Mouchet,Martin Hilka,Romain Bey
発行日 2023-03-23 17:17:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク