CORAL: Expert-Curated medical Oncology Reports to Advance Language Model Inference

要約

腫瘍学における医療と観察研究の両方では、患者の病気の進行と治療歴を完全に理解する必要があり、多くの場合、臨床ノートに詳細に記録されます。
これらの重要な役割にもかかわらず、現在の腫瘍学情報の表現と注釈スキーマは、これらのノートに記録された情報の多様性を完全にカプセル化したものはありません。
大規模言語モデル (LLM) は最近、さまざまな医療自然言語処理タスクで目覚ましいパフォーマンスを示していますが、包括的に注釈が付けられた腫瘍学データセットが現在不足しているため、腫瘍学ノートの複雑なレトリックを抽出して推論する際の LLM の広範な評価は依然として十分に研究されていません。
私たちは、患者の特徴、腫瘍の特徴、検査、治療、一時性を含む腫瘍学のテキスト情報に注釈を付けるための詳細なスキーマを開発しました。
カリフォルニア大学サンフランシスコ校で匿名化された 40 件の乳がんおよび膵臓がんの進行記録のコーパスを使用して、このスキーマを適用して、最近の 3 つの LLM (GPT-4、GPT-3.5-turbo、および FLAN) のゼロショット能力を評価しました。
-UL2) 臨床経過記録の 2 つの説明セクションから詳細な腫瘍学的病歴を抽出します。
私たちのチームは、9028 個のエンティティ、9986 個の修飾子、および 5312 個の関係に注釈を付けました。
GPT-4 モデルは、全体的に最高のパフォーマンスを示し、平均 BLEU スコア 0.73、平均 ROUGE スコア 0.72、完全一致 F1 スコア 0.51、および複雑なタスクの平均精度 68% を示しました (専門家による手動評価)。
サブセット)。
特に、腫瘍の特徴と薬剤の抽出に優れており、有害事象の検出などの関係推論において優れたパフォーマンスを示しました。
ただし、臨床研究、複雑な集団管理、質の高い患者ケアの文書化に必要ながん経過記録から重要な事実を確実に抽出するには、これを使用する前にさらなる改善が必要です。

要約(オリジナル)

Both medical care and observational studies in oncology require a thorough understanding of a patient’s disease progression and treatment history, often elaborately documented in clinical notes. Despite their vital role, no current oncology information representation and annotation schema fully encapsulates the diversity of information recorded within these notes. Although large language models (LLMs) have recently exhibited impressive performance on various medical natural language processing tasks, due to the current lack of comprehensively annotated oncology datasets, an extensive evaluation of LLMs in extracting and reasoning with the complex rhetoric in oncology notes remains understudied. We developed a detailed schema for annotating textual oncology information, encompassing patient characteristics, tumor characteristics, tests, treatments, and temporality. Using a corpus of 40 de-identified breast and pancreatic cancer progress notes at University of California, San Francisco, we applied this schema to assess the zero-shot abilities of three recent LLMs (GPT-4, GPT-3.5-turbo, and FLAN-UL2) to extract detailed oncological history from two narrative sections of clinical progress notes. Our team annotated 9028 entities, 9986 modifiers, and 5312 relationships. The GPT-4 model exhibited overall best performance, with an average BLEU score of 0.73, an average ROUGE score of 0.72, an exact-match F1-score of 0.51, and an average accuracy of 68% on complex tasks (expert manual evaluation on subset). Notably, it was proficient in tumor characteristic and medication extraction, and demonstrated superior performance in relational inference like adverse event detection. However, further improvements are needed before using it to reliably extract important facts from cancer progress notes needed for clinical research, complex population management, and documenting quality patient care.

arxiv情報

著者 Madhumita Sushil,Vanessa E. Kennedy,Divneet Mandair,Brenda Y. Miao,Travis Zack,Atul J. Butte
発行日 2024-01-11 16:45:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク