要約
電子医療記録 (EHR) テーブルには独特の課題があり、その中には、高レベルのデータの次元性と疎性を伴う医療特徴間に隠れたコンテキスト依存関係が存在することが挙げられます。
この研究は、患者データの抽出と検索のために EHR を理解する LLM の能力に関する最初の調査を示しています。
私たちは MIMICSQL データセットを使用して広範な実験を実施し、タスクのパフォーマンスに基づいて 2 つのバックボーン LLM、Llama2 と Meditron のプロンプト構造、指示、コンテキスト、およびデモンストレーションの影響を調査します。
定量的および定性的分析を通じて、私たちの調査結果は、最適な特徴選択とシリアル化方法により、単純なアプローチと比較してタスクのパフォーマンスを最大 26.79% 向上させることができることを示しています。
同様に、関連するサンプルを選択したコンテキスト内学習セットアップでは、データ抽出パフォーマンスが 5.95% 向上します。
研究結果に基づいて、健康検索をサポートする LLM ベースのモデルの設計に役立つと思われるガイドラインを提案します。
要約(オリジナル)
Electronic Health Record (EHR) tables pose unique challenges among which is the presence of hidden contextual dependencies between medical features with a high level of data dimensionality and sparsity. This study presents the first investigation into the abilities of LLMs to comprehend EHRs for patient data extraction and retrieval. We conduct extensive experiments using the MIMICSQL dataset to explore the impact of the prompt structure, instruction, context, and demonstration, of two backbone LLMs, Llama2 and Meditron, based on task performance. Through quantitative and qualitative analyses, our findings show that optimal feature selection and serialization methods can enhance task performance by up to 26.79% compared to naive approaches. Similarly, in-context learning setups with relevant example selection improve data extraction performance by 5.95%. Based on our study findings, we propose guidelines that we believe would help the design of LLM-based models to support health search.
arxiv情報
著者 | Jesus Lovon,Martin Mouysset,Jo Oleiwan,Jose G. Moreno,Christine Damase-Michel,Lynda Tamine |
発行日 | 2025-01-16 08:52:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google