DeIDClinic: A Multi-Layered Framework for De-identification of Clinical Free-text Data

要約

匿名化は、医療テキスト分析において患者のプライバシーを保護する上で重要です。
MASK フレームワークは、n2c2/i2b2 チャレンジによって編成された匿名化共有タスクにおいて最も優れたフレームワークの 1 つです。
この取り組みでは、辞書検索やルールベースのアプローチなどの従来の匿名化手法と並行して、特に臨床テキストに合わせて微調整された深層学習モデルである ClinicalBERT を統合することにより、MASK フレームワークを強化しています。
このシステムは、臨床文書内の機密性の高い識別可能なエンティティを効果的に識別し、編集または置換すると同時に、ユーザーが特定のニーズに応じてマスクされた文書をカスタマイズできるようにします。
ClinicalBERT の統合により、エンティティ認識のパフォーマンスが大幅に向上し、特に名前、日付、場所などの一般的なエンティティに対して 0.9732 F1 スコアを達成しました。
リスク評価機能も開発されており、文書内のコンテキストの一意性を分析して文書をリスクレベルに分類し、さらなる匿名化の取り組みを導きます。
このシステムは全体的に強力なパフォーマンスを示していますが、今回の研究では、より複雑なエンティティの発生の処理や、さまざまな臨床設定へのシステムの適応性の強化など、将来の改善の余地がある領域が浮き彫りになっています。

要約(オリジナル)

De-identification is important in protecting patients’ privacy for healthcare text analytics. The MASK framework is one of the best on the de-identification shared task organised by n2c2/i2b2 challenges. This work enhances the MASK framework by integrating ClinicalBERT, a deep learning model specifically fine-tuned on clinical texts, alongside traditional de-identification methods like dictionary lookup and rule-based approaches. The system effectively identifies and either redacts or replaces sensitive identifiable entities within clinical documents, while also allowing users to customise the masked documents according to their specific needs. The integration of ClinicalBERT significantly improves the performance of entity recognition, achieving 0.9732 F1-score, especially for common entities such as names, dates, and locations. A risk assessment feature has also been developed, which analyses the uniqueness of context within documents to classify them into risk levels, guiding further de-identification efforts. While the system demonstrates strong overall performance, this work highlights areas for future improvement, including handling more complex entity occurrences and enhancing the system’s adaptability to different clinical settings.

arxiv情報

著者 Angel Paul,Dhivin Shaji,Lifeng Han,Warren Del-Pinto,Goran Nenadic
発行日 2024-10-02 15:16:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク