Generation and De-Identification of Indian Clinical Discharge Summaries using LLMs

要約

医療データ侵害の影響は、患者、医療提供者、支払者にとって壊滅的なものになる可能性があります。
ここ数カ月間のデータ侵害による経済的影響は平均して 1,000 万米ドル近くになると推定されています。
これは、法の文言と精神に沿ったデータガバナンス手順を確立しながら、急速なデジタル化を管理しているインドの医療機関にとって特に重要です。
個人情報を匿名化するためのコンピュータベースのシステムはデータドリフトに対して脆弱であり、多くの場合、組織をまたがる環境では効果が得られません。
したがって、インドにおけるデジタルヘルスへの取り組みの安全な導入をサポートするには、地域の健康データセットに対する既存の匿名化の厳密な評価が不可欠です。
この論文では、インドの医療機関から提供された匿名化された患者の退院概要の少数のセットを使用して、公開されている非インドのデータセットでトレーニングされた匿名化アルゴリズム (言語モデルに基づく) の名目上のパフォーマンスを報告します。
組織を超えた一般化の欠如。
同様に、既製の匿名化システムを実験すると、このアプローチに関連する潜在的なリスクが明らかになります。
データ不足を克服するために、大規模言語モデル (LLM) 上でコンテキスト内学習を実行することにより、合成臨床レポート (公的に入手可能な要約とインドの要約を使用) を生成することを検討します。
私たちの実験は、優れた一般化機能を備えた高性能の匿名化システムを作成するための効果的な戦略として、生成されたレポートの使用を実証しました。

要約(オリジナル)

The consequences of a healthcare data breach can be devastating for the patients, providers, and payers. The average financial impact of a data breach in recent months has been estimated to be close to USD 10 million. This is especially significant for healthcare organizations in India that are managing rapid digitization while still establishing data governance procedures that align with the letter and spirit of the law. Computer-based systems for de-identification of personal information are vulnerable to data drift, often rendering them ineffective in cross-institution settings. Therefore, a rigorous assessment of existing de-identification against local health datasets is imperative to support the safe adoption of digital health initiatives in India. Using a small set of de-identified patient discharge summaries provided by an Indian healthcare institution, in this paper, we report the nominal performance of de-identification algorithms (based on language models) trained on publicly available non-Indian datasets, pointing towards a lack of cross-institutional generalization. Similarly, experimentation with off-the-shelf de-identification systems reveals potential risks associated with the approach. To overcome data scarcity, we explore generating synthetic clinical reports (using publicly available and Indian summaries) by performing in-context learning over Large Language Models (LLMs). Our experiments demonstrate the use of generated reports as an effective strategy for creating high-performing de-identification systems with good generalization capabilities.

arxiv情報

著者 Sanjeet Singh,Shreya Gupta,Niralee Gupta,Naimish Sharma,Lokesh Srivastava,Vibhu Agarwal,Ashutosh Modi
発行日 2024-07-08 12:47:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク