要約
電子健康記録(EHRS)は、医療を進めるための計り知れない可能性を保持し、構造化された情報と構造化されていない臨床ノートからの貴重な洞察を組み合わせた豊かで縦断的なデータを提供します。
ただし、臨床テキストの構造化されていない性質は、二次用途に大きな課題をもたらします。
ルールベースのシステムやマルチステージパイプラインなどのEHRフリーテキストデータを構築するための従来の方法は、時間がかかる構成と、多様なヘルスケア設定からの臨床ノート全体に適応できないことによって制限されることがよくあります。
用語の包括的な属性抽出を提供するシステムはほとんどありません。
GPT-4やLlama 405Bなどの巨大な大手言語モデル(LLM)は、タスクの構造に優れていますが、大規模な使用には遅く、費用がかかり、非現実的です。
これらの制限を克服するために、LLMを活用する生成ノート情報抽出システムであるGenieを導入し、非構造化された臨床テキストの構造を標準化された形式で使用可能なデータに合理化します。
Genieは、単一のパスで段落全体を処理し、エンティティ、アサーションステータス、場所、修飾子、値、および高精度で目的を抽出します。
その統一されたエンドツーエンドのアプローチは、ワークフローを簡素化し、エラーを減らし、広範な手動介入の必要性を排除します。
堅牢なデータ準備パイプラインと微調整された小規模LLMSを使用して、Genieは複数の情報抽出タスクにわたって競争力のあるパフォーマンスを達成し、CTAKEやメタマップなどの従来のツールを上回り、抽出する余分な属性を処理できます。
Genieは、ヘルスケアシステムにおける現実世界の適用性とスケーラビリティを大幅に向上させます。
モデルとテストデータをオープンソーシングすることにより、コラボレーションを奨励し、EHR構造化のさらなる進歩を促進することを目指しています。
要約(オリジナル)
Electronic Health Records (EHRs) hold immense potential for advancing healthcare, offering rich, longitudinal data that combines structured information with valuable insights from unstructured clinical notes. However, the unstructured nature of clinical text poses significant challenges for secondary applications. Traditional methods for structuring EHR free-text data, such as rule-based systems and multi-stage pipelines, are often limited by their time-consuming configurations and inability to adapt across clinical notes from diverse healthcare settings. Few systems provide a comprehensive attribute extraction for terminologies. While giant large language models (LLMs) like GPT-4 and LLaMA 405B excel at structuring tasks, they are slow, costly, and impractical for large-scale use. To overcome these limitations, we introduce GENIE, a Generative Note Information Extraction system that leverages LLMs to streamline the structuring of unstructured clinical text into usable data with standardized format. GENIE processes entire paragraphs in a single pass, extracting entities, assertion statuses, locations, modifiers, values, and purposes with high accuracy. Its unified, end-to-end approach simplifies workflows, reduces errors, and eliminates the need for extensive manual intervention. Using a robust data preparation pipeline and fine-tuned small scale LLMs, GENIE achieves competitive performance across multiple information extraction tasks, outperforming traditional tools like cTAKES and MetaMap and can handle extra attributes to be extracted. GENIE strongly enhances real-world applicability and scalability in healthcare systems. By open-sourcing the model and test data, we aim to encourage collaboration and drive further advancements in EHR structurization.
arxiv情報
著者 | Huaiyuan Ying,Hongyi Yuan,Jinsen Lu,Zitian Qu,Yang Zhao,Zhengyun Zhao,Isaac Kohane,Tianxi Cai,Sheng Yu |
発行日 | 2025-01-30 15:42:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google