Do Physicians Know How to Prompt? The Need for Automatic Prompt Optimization Help in Clinical Note Generation

要約

この研究では、臨床ノート生成における大規模言語モデル (LLM) のパフォーマンスに対するプロンプト エンジニアリングの効果を検証します。
自動プロンプト最適化 (APO) フレームワークを導入して、初期プロンプトを改良し、医療専門家、非医療専門家、APO で強化された GPT3.5 および GPT4 の出力を比較します。
結果は、臨床ノートセクション全体でプロンプトの品質を標準化する際の GPT4 APO の優れたパフォーマンスを強調しています。
人間参加型のアプローチでは、専門家が APO 後もコンテンツの品質を維持し、独自の変更を優先していることが示されており、専門家によるカスタマイズの価値が示唆されています。
一貫性のために APO-GPT4 を活用し、パーソナライゼーションのために専門家の意見を活用する 2 段階の最適化プロセスをお勧めします。

要約(オリジナル)

This study examines the effect of prompt engineering on the performance of Large Language Models (LLMs) in clinical note generation. We introduce an Automatic Prompt Optimization (APO) framework to refine initial prompts and compare the outputs of medical experts, non-medical experts, and APO-enhanced GPT3.5 and GPT4. Results highlight GPT4 APO’s superior performance in standardizing prompt quality across clinical note sections. A human-in-the-loop approach shows that experts maintain content quality post-APO, with a preference for their own modifications, suggesting the value of expert customization. We recommend a two-phase optimization process, leveraging APO-GPT4 for consistency and expert input for personalization.

arxiv情報

著者 Zonghai Yao,Ahmed Jaafar,Beining Wang,Zhichao Yang,Hong Yu
発行日 2024-03-19 16:27:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク