Leveraging GPT-4 for Food Effect Summarization to Enhance Product-Specific Guidance Development via Iterative Prompting


新薬申請 (NDA) からの食品影響の要約は、製品固有のガイダンス (PSG) の開発と評価に不可欠な要素です。
ChatGPT や GPT-4 などの大規模言語モデル (LLM) の最近の進歩により、自動テキスト要約の有効性を向上させる大きな可能性が実証されていますが、PSG 評価における食品の影響を要約する精度に関するその能力は依然として不明です。
この研究では、シンプルだが効果的なアプローチである反復プロンプトを導入します。これにより、マルチターン インタラクションを通じて ChatGPT または GPT-4 とより効果的かつ効率的にインタラクションできるようになります。
具体的には、食品効果の要約に対する 3 ターンの反復プロンプトアプローチを提案します。このアプローチでは、キーワードに焦点を当てたプロンプトと長さ制御されたプロンプトがそれぞれ連続したターンで提供され、生成される要約の品質を向上させます。
当社は、過去 5 年間に選択された 100 件の NDA 審査文書に対して、自動化された指標から FDA 専門家による評価、さらには GPT-4 による評価に至るまで、一連の広範な評価を実施しています。
さらに、FDA 専門家による評価 (43% 対 12%) および GPT-4 (64% 対 35%) によると、GPT-4 は ChatGPT よりも優れたパフォーマンスを発揮することがわかりました。
重要なのは、すべての FDA 専門家が一致して、GPT-4 によって生成された概要の 85% が黄金参考概要と事実上一致していると評価しており、この発見は GPT-4 の 72% の一貫性評価によってさらに裏付けられています。
これらの結果は、GPT-4 が FDA 専門家によってレビューされる食品影響概要の草案を作成し、それによって PSG 評価サイクルの効率を向上させ、ジェネリック医薬品の開発を促進する大きな可能性を強く示唆しています。


Food effect summarization from New Drug Application (NDA) is an essential component of product-specific guidance (PSG) development and assessment. However, manual summarization of food effect from extensive drug application review documents is time-consuming, which arouses a need to develop automated methods. Recent advances in large language models (LLMs) such as ChatGPT and GPT-4, have demonstrated great potential in improving the effectiveness of automated text summarization, but its ability regarding the accuracy in summarizing food effect for PSG assessment remains unclear. In this study, we introduce a simple yet effective approach, iterative prompting, which allows one to interact with ChatGPT or GPT-4 more effectively and efficiently through multi-turn interaction. Specifically, we propose a three-turn iterative prompting approach to food effect summarization in which the keyword-focused and length-controlled prompts are respectively provided in consecutive turns to refine the quality of the generated summary. We conduct a series of extensive evaluations, ranging from automated metrics to FDA professionals and even evaluation by GPT-4, on 100 NDA review documents selected over the past five years. We observe that the summary quality is progressively improved throughout the process. Moreover, we find that GPT-4 performs better than ChatGPT, as evaluated by FDA professionals (43% vs. 12%) and GPT-4 (64% vs. 35%). Importantly, all the FDA professionals unanimously rated that 85% of the summaries generated by GPT-4 are factually consistent with the golden reference summary, a finding further supported by GPT-4 rating of 72% consistency. These results strongly suggest a great potential for GPT-4 to draft food effect summaries that could be reviewed by FDA professionals, thereby improving the efficiency of PSG assessment cycle and promoting the generic drug product development.


著者 Yiwen Shi,Ping Ren,Jing Wang,Biao Han,Taha ValizadehAslani,Felix Agbavor,Yi Zhang,Meng Hu,Liang Zhao,Hualou Liang
発行日 2023-06-28 14:55:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク