Assertion Detection Large Language Model In-context Learning LoRA Fine-tuning

要約

この研究では、臨床自然言語処理 (NLP) の重要なプロセスである、臨床ノートから医療概念を抽出する際のアサーション検出のタスクに取り組むことを目的としています。
臨床 NLP におけるアサーションの検出には、通常、臨床テキスト内の医療概念のアサーション タイプ、つまり確実性 (医療概念が肯定的、否定的、可能性、または仮説的であるかどうか)、一時性 (医療概念が現在のものか過去の歴史のものか) を識別することが含まれます。
、および経験者(医療概念が患者または家族向けに説明されているかどうか)。
これらのアサーション タイプは、医療専門家が構造化されていない臨床テキストから病状の背景を迅速かつ明確に理解するために不可欠であり、患者ケアの質と結果に直接影響します。
広く使用されていますが、従来の手法、特にルールベースの NLP システムや機械学習または深層学習モデルは、パターンを作成するために集中的な手作業が必要で、あまり一般的ではないアサーション タイプを見落とす傾向があり、コンテキストの不完全な理解につながります。
この課題に対処するために、私たちの研究では、アサーション検出のために膨大な医療データで事前トレーニングされた大規模言語モデル (LLM) を利用する新しい方法論を導入しています。
私たちは、Tree of Thought (ToT)、Chain of Thought (CoT)、Self-Consistency (SC) などの高度な推論技術を使用して現在の手法を強化し、低ランク適応 (LoRA) の微調整でさらに改良しました。
まず、i2b2 2010 アサーション データセットでモデルを評価しました。
私たちの方法では、微平均 F-1 0.89 を達成し、以前の研究より 0.11 改善しました。
私たちのアプローチの一般化可能性をさらに評価するために、睡眠概念の抽出に焦点を当てたローカル データセットに評価を拡張しました。
私たちのアプローチでは、F-1 が 0.74 となり、以前の方法より 0.31 高くなりました。

要約(オリジナル)

In this study, we aim to address the task of assertion detection when extracting medical concepts from clinical notes, a key process in clinical natural language processing (NLP). Assertion detection in clinical NLP usually involves identifying assertion types for medical concepts in the clinical text, namely certainty (whether the medical concept is positive, negated, possible, or hypothetical), temporality (whether the medical concept is for present or the past history), and experiencer (whether the medical concept is described for the patient or a family member). These assertion types are essential for healthcare professionals to quickly and clearly understand the context of medical conditions from unstructured clinical texts, directly influencing the quality and outcomes of patient care. Although widely used, traditional methods, particularly rule-based NLP systems and machine learning or deep learning models, demand intensive manual efforts to create patterns and tend to overlook less common assertion types, leading to an incomplete understanding of the context. To address this challenge, our research introduces a novel methodology that utilizes Large Language Models (LLMs) pre-trained on a vast array of medical data for assertion detection. We enhanced the current method with advanced reasoning techniques, including Tree of Thought (ToT), Chain of Thought (CoT), and Self-Consistency (SC), and refine it further with Low-Rank Adaptation (LoRA) fine-tuning. We first evaluated the model on the i2b2 2010 assertion dataset. Our method achieved a micro-averaged F-1 of 0.89, with 0.11 improvements over the previous works. To further assess the generalizability of our approach, we extended our evaluation to a local dataset that focused on sleep concept extraction. Our approach achieved an F-1 of 0.74, which is 0.31 higher than the previous method.

arxiv情報

著者 Yuelyu Ji,Zeshui Yu,Yanshan Wang
発行日 2024-01-31 05:11:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク