Do Physicians Know How to Prompt? The Need for Automatic Prompt Optimization Help in Clinical Note Generation

要約

本研究では、臨床ノート生成におけるLarge Language Models(LLM)のパフォーマンスに対するプロンプトエンジニアリングの効果を検証する。自動プロンプト最適化(Auto Prompt Optimization:APO)フレームワークを導入し、初期プロンプトを洗練させ、医療専門家、非医療専門家、APOにより強化されたGPT3.5とGPT4の出力を比較した。その結果、GPT4 APOが、クリニカルノートのセクション間でプロンプトの質を標準化するという点で優れていることが明らかになった。ヒューマン・イン・ザ・ループのアプローチにより、専門家はAPO後もコンテンツの質を維持し、自分自身の修正を好むことが示され、専門家によるカスタマイズの価値が示唆された。APO-GPT4による一貫性の確保と、専門家によるパーソナライゼーションという2段階の最適化プロセスを推奨する。

要約(オリジナル)

This study examines the effect of prompt engineering on the performance of Large Language Models (LLMs) in clinical note generation. We introduce an Automatic Prompt Optimization (APO) framework to refine initial prompts and compare the outputs of medical experts, non-medical experts, and APO-enhanced GPT3.5 and GPT4. Results highlight GPT4 APO’s superior performance in standardizing prompt quality across clinical note sections. A human-in-the-loop approach shows that experts maintain content quality post-APO, with a preference for their own modifications, suggesting the value of expert customization. We recommend a two-phase optimization process, leveraging APO-GPT4 for consistency and expert input for personalization.

arxiv情報

著者 Zonghai Yao,Ahmed Jaafar,Beining Wang,Zhichao Yang,Hong Yu
発行日 2024-07-05 09:14:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク