Prompt engineering paradigms for medical applications: scoping review and recommendations for better practices

要約

特に特殊な用語や表現が使用される医療分野では、大規模言語モデル (LLM) の可能性を活用するには、迅速なエンジニアリングが不可欠です。
ただし、医療分野における迅速なエンジニアリングの有効性はまだ調査されていません。
この研究では、プロンプト学習 (PL)、プロンプトチューニング (PT)、およびプロンプトデザイン (PD) をカバーする、プロンプトエンジニアリングを医療に適用した 114 件の最近の研究 (2022 年から 2024 年) をレビューします。
PD が最も普及しています (78 件)。
12 の論文では、PD、PL、PT という用語が同じ意味で使用されていました。
ChatGPT は最も一般的に使用されている LLM であり、7 つの論文が機密臨床データの処理に ChatGPT を使用しています。
思考連鎖は、最も一般的なプロンプト エンジニアリング手法として浮上しています。
PL および PT の論文は通常、プロンプトベースのアプローチを評価するためのベースラインを提供しますが、PD 研究の 64% にはプロンプトに関連しないベースラインがありません。
既存の研究を要約した表と図、および将来の研究貢献の指針となるレポートの推奨事項を提供します。

要約(オリジナル)

Prompt engineering is crucial for harnessing the potential of large language models (LLMs), especially in the medical domain where specialized terminology and phrasing is used. However, the efficacy of prompt engineering in the medical domain remains to be explored. In this work, 114 recent studies (2022-2024) applying prompt engineering in medicine, covering prompt learning (PL), prompt tuning (PT), and prompt design (PD) are reviewed. PD is the most prevalent (78 articles). In 12 papers, PD, PL, and PT terms were used interchangeably. ChatGPT is the most commonly used LLM, with seven papers using it for processing sensitive clinical data. Chain-of-Thought emerges as the most common prompt engineering technique. While PL and PT articles typically provide a baseline for evaluating prompt-based approaches, 64% of PD studies lack non-prompt-related baselines. We provide tables and figures summarizing existing work, and reporting recommendations to guide future research contributions.

arxiv情報

著者 Jamil Zaghir,Marco Naguib,Mina Bjelogrlic,Aurélie Névéol,Xavier Tannier,Christian Lovis
発行日 2024-05-02 12:52:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク