DeID-GPT: Zero-shot Medical Text De-Identification by GPT-4

要約

ヘルスケアのデジタル化により、医療データの共有と再利用が容易になりましたが、機密性とプライバシーに関する懸念も生じています。
HIPAA (医療保険の携行性と説明責任に関する法律) では、医療記録を配布する前に再識別情報を削除することが義務付けられています。
したがって、医療データ、特にフリーテキスト形式のデータを匿名化するための効果的かつ効率的なソリューションが非常に必要とされています。
ルールベースと学習ベースの両方を含むさまざまなコンピューター支援の匿名化方法が開発され、以前の実践で使用されてきましたが、そのようなソリューションはまだ一般化に欠けているか、さまざまなシナリオに従って微調整する必要があり、
より広い使用。
ChatGPT や GPT-4 などの大規模言語モデル (LLM) の進歩は、これらのモデルのように、特にプライバシー保護のタスクにおいて、ゼロ ショット イン コンテキスト学習を使用して医療分野でテキスト データを処理する大きな可能性を示しています。
強力な名前付きエンティティ認識 (NER) 機能により、機密情報を識別できます。
この作業では、識別情報を自動的に識別して削除するための新しい GPT4 対応の匿名化フレームワーク (「DeID-GPT」) を開発しました。
既存の一般的に使用されている医療テキスト データの匿名化方法と比較して、開発された DeID-GPT は、テキストの元の構造と意味を維持しながら、構造化されていない医療テキストから個人情報をマスキングする際に最高の精度と顕著な信頼性を示しました。
この研究は、ChatGPT と GPT-4 を医療テキスト データの処理と匿名化に利用する最も初期の研究の 1 つであり、医療における ChatGPT/GPT-4 などの LLM の使用に関するさらなる研究とソリューション開発のための洞察を提供します。
コードとベンチマーク データの情報は、https://github.com/yhydhx/ChatGPT-API で入手できます。

要約(オリジナル)

The digitization of healthcare has facilitated the sharing and re-using of medical data but has also raised concerns about confidentiality and privacy. HIPAA (Health Insurance Portability and Accountability Act) mandates removing re-identifying information before the dissemination of medical records. Thus, effective and efficient solutions for de-identifying medical data, especially those in free-text forms, are highly needed. While various computer-assisted de-identification methods, including both rule-based and learning-based, have been developed and used in prior practice, such solutions still lack generalizability or need to be fine-tuned according to different scenarios, significantly imposing restrictions in wider use. The advancement of large language models (LLM), such as ChatGPT and GPT-4, have shown great potential in processing text data in the medical domain with zero-shot in-context learning, especially in the task of privacy protection, as these models can identify confidential information by their powerful named entity recognition (NER) capability. In this work, we developed a novel GPT4-enabled de-identification framework (‘DeID-GPT’) to automatically identify and remove the identifying information. Compared to existing commonly used medical text data de-identification methods, our developed DeID-GPT showed the highest accuracy and remarkable reliability in masking private information from the unstructured medical text while preserving the original structure and meaning of the text. This study is one of the earliest to utilize ChatGPT and GPT-4 for medical text data processing and de-identification, which provides insights for further research and solution development on the use of LLMs such as ChatGPT/GPT-4 in healthcare. Codes and benchmarking data information are available at https://github.com/yhydhx/ChatGPT-API.

arxiv情報

著者 Zhengliang Liu,Xiaowei Yu,Lu Zhang,Zihao Wu,Chao Cao,Haixing Dai,Lin Zhao,Wei Liu,Dinggang Shen,Quanzheng Li,Tianming Liu,Dajiang Zhu,Xiang Li
発行日 2023-03-20 11:34:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク