Leveraging Language Models for Automated Patient Record Linkage

要約

目的:ヘルスケアデータの断片化は、患者データをリンクするための主要な課題を提示し、多様なソースから患者記録を統合するための堅牢なレコードリンクを必要とします。
この研究では、自動化された患者の記録的なリンケージの言語モデルを活用する可能性を調査し、ブロッキングとマッチングという2つの重要なタスクに焦点を当てています。
材料と方法:ミズーリ州がん登録および研究センターからの実際の医療データを利用し、ベースラインとして確率的リンケージを使用して2つの独立したソースの患者記録をリンクしました。
トランスベースのモデルであるロベルタは、文の埋め込みを使用してブロッキングするために微調整されました。
一致するために、いくつかの言語モデルを微調整されたゼロショット設定で実験し、グラウンドトゥルースラベルに対するパフォーマンスを評価しました。
結果:微調整されたブロッキングモデルは、ほぼ完璧なリコールを維持しながら、候補ペアの数が92%減少しました。
一致するタスクでは、微調整されたミストラル-7Bは、わずか6つの誤った予測で最高のパフォーマンスを達成しました。
ゼロショットモデルの中で、Mistral-Small-24Bが最高のパフォーマンスを発揮し、合計55の誤った予測がありました。
ディスカッション:微調整された言語モデルは、患者の記録ブロッキングと最小限のエラーとのマッチングで強力なパフォーマンスを達成しました。
ただし、ハイブリッドルールベースのバックアプローチよりも正確で効率的ではありません。
さらに、DeepSeek-R1などの推論モデルは、計算コストが高いため、大規模なレコードリンクに対しては非現実的です。
結論:この研究は、患者の記録的なリンケージを自動化するための言語モデルの可能性を強調し、患者の記録的なリンケージを実行するために必要な手動の努力を排除することにより、効率を向上させます。
全体として、言語モデルは、データの統合を強化し、手動の努力を削減し、病気の監視と研究をサポートできるスケーラブルなソリューションを提供します。

要約(オリジナル)

Objective: Healthcare data fragmentation presents a major challenge for linking patient data, necessitating robust record linkage to integrate patient records from diverse sources. This study investigates the feasibility of leveraging language models for automated patient record linkage, focusing on two key tasks: blocking and matching. Materials and Methods: We utilized real-world healthcare data from the Missouri Cancer Registry and Research Center, linking patient records from two independent sources using probabilistic linkage as a baseline. A transformer-based model, RoBERTa, was fine-tuned for blocking using sentence embeddings. For matching, several language models were experimented under fine-tuned and zero-shot settings, assessing their performance against ground truth labels. Results: The fine-tuned blocking model achieved a 92% reduction in the number of candidate pairs while maintaining near-perfect recall. In the matching task, fine-tuned Mistral-7B achieved the best performance with only 6 incorrect predictions. Among zero-shot models, Mistral-Small-24B performed best, with a total of 55 incorrect predictions. Discussion: Fine-tuned language models achieved strong performance in patient record blocking and matching with minimal errors. However, they remain less accurate and efficient than a hybrid rule-based and probabilistic approach for blocking. Additionally, reasoning models like DeepSeek-R1 are impractical for large-scale record linkage due to high computational costs. Conclusion: This study highlights the potential of language models for automating patient record linkage, offering improved efficiency by eliminating the manual efforts required to perform patient record linkage. Overall, language models offer a scalable solution that can enhance data integration, reduce manual effort, and support disease surveillance and research.

arxiv情報

著者 Mohammad Beheshti,Lovedeep Gondara,Iris Zachary
発行日 2025-04-21 17:41:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク