PALLM: Evaluating and Enhancing PALLiative Care Conversations with Large Language Models

要約

患者と医療提供者の効果的なコミュニケーションは臨床ケアにおいて極めて重要であり、患者の転帰と生活の質に直接影響を与えます。
人間による評価、患者からのフィードバック、医療提供者の自己評価などの従来の評価方法は、多くの場合、高コストと拡張性の問題によって制限されます。
既存の自然言語処理 (NLP) 技術は有望ですが、臨床コミュニケーションの微妙な違いに苦戦しており、トレーニングには機密の臨床データが必要なため、現実世界のアプリケーションでの有効性は低下します。
新しい大規模言語モデル (LLM) は、複雑な通信メトリクスを評価するための新しいアプローチを提供し、パッシブ センシングおよびジャストインタイム介入システムへの統合を通じてこの分野を前進させる可能性があります。
この研究では、LLM の言語能力、状況に応じた学習能力、および推論能力を活用して、緩和ケアのコミュニケーションの質を評価する者としての LLM を調査します。
具体的には、医療専門家によって作成されラベル付けされたシミュレートされたスクリプトを使用して、独自のモデル (例: GPT-4) をテストし、GPT-4 によって生成された合成データセットを使用してオープンソース LLM (例: LLaMA2) を微調整して、臨床会話を評価します。
「理解」や「共感」などの主要な指標を特定します。
私たちの調査結果は、臨床コミュニケーションを評価し、推論を伴う実用的なフィードバックを提供し、社内 LLM 開発の実現可能性と実践的な実行可能性を実証する際に、LLM が優れたパフォーマンスを発揮することを実証しました。
この研究は、患者と医療提供者の相互作用を強化する LLM の可能性を浮き彫りにし、LLM を活用した臨床医療システムを開発する下流段階の基礎を築きます。

要約(オリジナル)

Effective patient-provider communication is crucial in clinical care, directly impacting patient outcomes and quality of life. Traditional evaluation methods, such as human ratings, patient feedback, and provider self-assessments, are often limited by high costs and scalability issues. Although existing natural language processing (NLP) techniques show promise, they struggle with the nuances of clinical communication and require sensitive clinical data for training, reducing their effectiveness in real-world applications. Emerging large language models (LLMs) offer a new approach to assessing complex communication metrics, with the potential to advance the field through integration into passive sensing and just-in-time intervention systems. This study explores LLMs as evaluators of palliative care communication quality, leveraging their linguistic, in-context learning, and reasoning capabilities. Specifically, using simulated scripts crafted and labeled by healthcare professionals, we test proprietary models (e.g., GPT-4) and fine-tune open-source LLMs (e.g., LLaMA2) with a synthetic dataset generated by GPT-4 to evaluate clinical conversations, to identify key metrics such as `understanding’ and `empathy’. Our findings demonstrated LLMs’ superior performance in evaluating clinical communication, providing actionable feedback with reasoning, and demonstrating the feasibility and practical viability of developing in-house LLMs. This research highlights LLMs’ potential to enhance patient-provider interactions and lays the groundwork for downstream steps in developing LLM-empowered clinical health systems.

arxiv情報

著者 Zhiyuan Wang,Fangxu Yuan,Virginia LeBaron,Tabor Flickinger,Laura E. Barnes
発行日 2024-09-24 13:03:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC パーマリンク