DeID-GPT: Zero-shot Medical Text De-Identification by GPT-4

要約

医療のデジタル化により、医療データの共有と再利用が容易になりましたが、機密性とプライバシーに関する懸念も生じています。
HIPAA (医療保険の相互運用性と責任に関する法律) は、医療記録を広める前に再識別情報を削除することを義務付けています。
したがって、医療データ、特にフリーテキスト形式のデータを匿名化するための効果的かつ効率的なソリューションが強く求められています。
ルールベースと学習ベースの両方を含むさまざまなコンピュータ支援の匿名化手法が開発され、これまでの実践で使用されてきましたが、そのようなソリューションはまだ一般化性に欠けているか、さまざまなシナリオに応じて微調整する必要があり、大幅な制限を課しています。
より広い用途。
ChatGPT や GPT-4 などの大規模言語モデル (LLM) の進歩により、特にプライバシー保護のタスクにおいて、ゼロショット インコンテキスト学習による医療分野のテキスト データの処理に大きな可能性が示されています。
強力な固有表現認識 (NER) 機能によって機密情報を識別できます。
今回の研究では、識別情報を自動的に識別して削除するための、新しい GPT4 対応の匿名化フレームワーク (「DeID-GPT」) を開発しました。
既存の一般的に使用されている医療テキストデータの匿名化手法と比較して、当社が開発した DeID-GPT は、テキストの元の構造と意味を維持しながら、非構造化医療テキストから個人情報をマスキングする点で最高の精度と顕著な信頼性を示しました。
この研究は、ChatGPT と GPT-4 を医療テキスト データの処理と匿名化に利用した最も初期の研究の 1 つであり、医療における ChatGPT/GPT-4 などの LLM の使用に関するさらなる研究とソリューション開発のための洞察を提供します。
コードとベンチマーク データの情報は、https://github.com/yhydhx/ChatGPT-API で入手できます。

要約(オリジナル)

The digitization of healthcare has facilitated the sharing and re-using of medical data but has also raised concerns about confidentiality and privacy. HIPAA (Health Insurance Portability and Accountability Act) mandates removing re-identifying information before the dissemination of medical records. Thus, effective and efficient solutions for de-identifying medical data, especially those in free-text forms, are highly needed. While various computer-assisted de-identification methods, including both rule-based and learning-based, have been developed and used in prior practice, such solutions still lack generalizability or need to be fine-tuned according to different scenarios, significantly imposing restrictions in wider use. The advancement of large language models (LLM), such as ChatGPT and GPT-4, have shown great potential in processing text data in the medical domain with zero-shot in-context learning, especially in the task of privacy protection, as these models can identify confidential information by their powerful named entity recognition (NER) capability. In this work, we developed a novel GPT4-enabled de-identification framework (“DeID-GPT’) to automatically identify and remove the identifying information. Compared to existing commonly used medical text data de-identification methods, our developed DeID-GPT showed the highest accuracy and remarkable reliability in masking private information from the unstructured medical text while preserving the original structure and meaning of the text. This study is one of the earliest to utilize ChatGPT and GPT-4 for medical text data processing and de-identification, which provides insights for further research and solution development on the use of LLMs such as ChatGPT/GPT-4 in healthcare. Codes and benchmarking data information are available at https://github.com/yhydhx/ChatGPT-API.

arxiv情報

著者 Zhengliang Liu,Yue Huang,Xiaowei Yu,Lu Zhang,Zihao Wu,Chao Cao,Haixing Dai,Lin Zhao,Yiwei Li,Peng Shu,Fang Zeng,Lichao Sun,Wei Liu,Dinggang Shen,Quanzheng Li,Tianming Liu,Dajiang Zhu,Xiang Li
発行日 2023-12-21 16:13:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク