Large Language Models for Patient Comments Multi-Label Classification

要約

患者の体験とケアの質は、病院の持続可能性と評判にとって極めて重要である。患者のフィードバックの分析は、患者の満足度と転帰に関する貴重な洞察を提供する。しかし、これらのコメントの非構造化された性質は、教師あり学習のパラダイムに従った従来の機械学習手法に課題を提起する。これは、ラベル付けされたデータが利用できないことと、これらのテキストが包含するニュアンスによるものである。この研究では、入院後に共有された入院患者のコメントの多ラベルテキスト分類(MLTC)を行う際に、大規模言語モデル(LLM)を活用することを検討する。分類にはGPT-4ターボを活用した。しかし、患者のコメントは機密性が高いため、データをLLMに送る前に、保護された医療情報(PHI)検出フレームワークによってセキュリティレイヤーを導入し、患者の識別を確実に解除した。さらに、プロンプトエンジニアリングフレームワークを用いて、ゼロショット学習、文脈内学習、思考連鎖プロンプトの実験を行った。その結果、GPT-4ターボは、ゼロ・ショット学習であれ、少数ショット学習であれ、従来の手法や訓練済み言語モデル(PLM)を凌駕し、F1スコア76.12%、重み付きF1スコア73.61%という最高の総合性能を達成した。その後、結果の他の患者経験構造化変数(例えば、評価)との関連が実施された。本研究は、LLMの適用を通じてMLTCを強化し、医療従事者に、患者からのフィードバックを深く洞察し、迅速かつ適切な対応を行うための効率的な方法を提供する。

要約(オリジナル)

Patient experience and care quality are crucial for a hospital’s sustainability and reputation. The analysis of patient feedback offers valuable insight into patient satisfaction and outcomes. However, the unstructured nature of these comments poses challenges for traditional machine learning methods following a supervised learning paradigm. This is due to the unavailability of labeled data and the nuances these texts encompass. This research explores leveraging Large Language Models (LLMs) in conducting Multi-label Text Classification (MLTC) of inpatient comments shared after a stay in the hospital. GPT-4 Turbo was leveraged to conduct the classification. However, given the sensitive nature of patients’ comments, a security layer is introduced before feeding the data to the LLM through a Protected Health Information (PHI) detection framework, which ensures patients’ de-identification. Additionally, using the prompt engineering framework, zero-shot learning, in-context learning, and chain-of-thought prompting were experimented with. Results demonstrate that GPT-4 Turbo, whether following a zero-shot or few-shot setting, outperforms traditional methods and Pre-trained Language Models (PLMs) and achieves the highest overall performance with an F1-score of 76.12% and a weighted F1-score of 73.61% followed closely by the few-shot learning results. Subsequently, the results’ association with other patient experience structured variables (e.g., rating) was conducted. The study enhances MLTC through the application of LLMs, offering healthcare practitioners an efficient method to gain deeper insights into patient feedback and deliver prompt, appropriate responses.

arxiv情報

著者 Hajar Sakai,Sarah S. Lam,Mohammadsadegh Mikaeili,Joshua Bosire,Franziska Jovin
発行日 2024-11-01 14:27:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク