Iterative Prompt Refinement for Radiation Oncology Symptom Extraction Using Teacher-Student Large Language Models

要約

この研究では、臨床ノートからの前立腺がん放射線療法の症状抽出を改善するために、大規模言語モデル (LLM) を利用した新しい教師と生徒のアーキテクチャを導入しています。
学生モデルである Mixtral は最初に症状を抽出し、続いて教師モデルである GPT-4 が Mixtral のパフォーマンスに基づいてプロンプトを調整します。
この反復プロセスには、12 の症状にわたる 294 の単一症状の臨床ノートが含まれ、エポックごとに最大 16 ラウンドの改良が行われました。
その結果、単一症状メモと複数症状メモの両方から症状を抽出する際に大幅な改善が見られました。
59 の単一症状メモについて、精度は 0.51 から 0.71 に、適合率は 0.52 から 0.82 に、再現率は 0.52 から 0.72 に、F1 スコアは 0.49 から 0.73 に増加しました。
375 件の複数の症状に関するメモでは、精度が 0.24 から 0.43 に、適合率が 0.6 から 0.76 に、再現率が 0.24 から 0.43 に、F1 スコアが 0.20 から 0.44 に上昇しました。
これらの結果は、放射線腫瘍学用途における LLM における高度な即時エンジニアリングの有効性を示しています。

要約(オリジナル)

This study introduces a novel teacher-student architecture utilizing Large Language Models (LLMs) to improve prostate cancer radiotherapy symptom extraction from clinical notes. Mixtral, the student model, initially extracts symptoms, followed by GPT-4, the teacher model, which refines prompts based on Mixtral’s performance. This iterative process involved 294 single symptom clinical notes across 12 symptoms, with up to 16 rounds of refinement per epoch. Results showed significant improvements in extracting symptoms from both single and multi-symptom notes. For 59 single symptom notes, accuracy increased from 0.51 to 0.71, precision from 0.52 to 0.82, recall from 0.52 to 0.72, and F1 score from 0.49 to 0.73. In 375 multi-symptom notes, accuracy rose from 0.24 to 0.43, precision from 0.6 to 0.76, recall from 0.24 to 0.43, and F1 score from 0.20 to 0.44. These results demonstrate the effectiveness of advanced prompt engineering in LLMs for radiation oncology use.

arxiv情報

著者 Reza Khanmohammadi,Ahmed I Ghanem,Kyle Verdecchia,Ryan Hall,Mohamed Elshaikh,Benjamin Movsas,Hassan Bagher-Ebadian,Indrin Chetty,Mohammad M. Ghassemi,Kundan Thind
発行日 2024-02-06 15:25:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク