De-Identification of French Unstructured Clinical Notes for Machine Learning Tasks

要約

非構造化テキストデータは、医療システムの中心です。医師間の連絡レター、手術報告書、ICD-10 規格に準拠した手順のコーディングなどです。これらの文書に含まれる詳細により、患者のことをよりよく知ることができ、
患者をより適切に管理し、病状をより適切に研究し、関連する医療行為に正確に報酬を与える\ldots これらすべては、今日、人工知能技術によって (少なくとも部分的に) 手の届くところにあるようです。
ただし、明らかなプライバシー保護の理由から、これらの AI の設計者には、識別データが含まれている限り、これらのドキュメントにアクセスする法的権利がありません。
これらの文書の匿名化、つまり文書内に存在するすべての識別情報を検出して削除することは、2 つの相補的な世界間でこのデータを共有するために法的に必要な手順です。
過去 10 年間にわたり、主に英語の文書を匿名化するための提案がいくつか行われてきました。
多くの場合、検出スコアは高くなりますが、置換方法は攻撃に対してあまり堅牢ではありません。
フランス語では、恣意的な検出ルールや置換ルールに基づいたメソッドはほとんどありません。
この論文では、フランス語の医療文書に特化した新しい包括的な匿名化手法を提案します。
識別要素の検出 (ディープ ラーニングに基づく) とその置換 (差分プライバシーに基づく) の両方のアプローチは、最も実績のある既存のアプローチに基づいています。
その結果、これらの医療文書の中心となる患者のプライバシーを効果的に保護するアプローチが生まれました。
このアプローチ全体は、フランスの公立病院のフランス語の医療データセットに基づいて評価されており、その結果は非常に有望です。

要約(オリジナル)

Unstructured textual data are at the heart of health systems: liaison letters between doctors, operating reports, coding of procedures according to the ICD-10 standard, etc. The details included in these documents make it possible to get to know the patient better, to better manage him or her, to better study the pathologies, to accurately remunerate the associated medical acts\ldots All this seems to be (at least partially) within reach of today by artificial intelligence techniques. However, for obvious reasons of privacy protection, the designers of these AIs do not have the legal right to access these documents as long as they contain identifying data. De-identifying these documents, i.e. detecting and deleting all identifying information present in them, is a legally necessary step for sharing this data between two complementary worlds. Over the last decade, several proposals have been made to de-identify documents, mainly in English. While the detection scores are often high, the substitution methods are often not very robust to attack. In French, very few methods are based on arbitrary detection and/or substitution rules. In this paper, we propose a new comprehensive de-identification method dedicated to French-language medical documents. Both the approach for the detection of identifying elements (based on deep learning) and their substitution (based on differential privacy) are based on the most proven existing approaches. The result is an approach that effectively protects the privacy of the patients at the heart of these medical documents. The whole approach has been evaluated on a French language medical dataset of a French public hospital and the results are very encouraging.

arxiv情報

著者 Yakini Tchouka,Jean-François Couchot,Maxime Coulmeau,David Laiymani,Philippe Selles,Azzedine Rahmani
発行日 2023-10-06 14:40:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク