Can Foundational Large Language Models Assist with Conducting Pharmaceuticals Manufacturing Investigations?

要約

Generative Pretrained Transformer (GPT) や Large Language Model Meta AI (LLaMA) などの汎用大規模言語モデル (LLM) は、近年大きな注目を集めています。
これらのモデルがさまざまな自然言語処理タスクで非常に優れたパフォーマンスを発揮できるという強力な証拠があります。
ただし、これらをどのように活用してドメイン固有のユースケースにアプローチし、価値を高めるかは未解決の問題のままです。
この研究では、医薬品製造調査という特定のユースケースに焦点を当て、組織内の製造インシデントと逸脱の履歴記録を活用することが、新しい事件に対処して解決したり、新しい製造キャンペーンのリスクを軽減したりするのに有益である可能性があることを提案します。
さまざまな製品ラインから選択された実際の製造偏差の小さいながら多様なデータセットを使用して、上記の目標に関連するタスクを実行する際の 3 つの汎用 LLM (GPT-3.5、GPT-4、および Claude-2) の能力を評価し、定量化します。
特に、(1) 非構造化データからケースの根本原因などの特定の情報を抽出するプロセスを自動化する LLM の機能、および (2) データベース上でセマンティック検索を実行することにより、類似または関連する逸脱を特定できる可能性
歴史的記録が調べられます。
私たちの結果は、情報抽出タスクにおける GPT-4 と Claude-2 の精度の高さを示していますが、危険因子としての LLM の見かけの推論と幻覚行動の間の複雑な相互作用のケースについても議論します。
さらに、逸脱記述のベクトル埋め込みのセマンティック検索を使用して、同様のタイプの欠陥を持つレコードなど、類似したレコードを高レベルの精度で識別できることを示します。
類似レコード識別の精度を高めるためのさらなる改善について議論します。

要約(オリジナル)

General purpose Large Language Models (LLM) such as the Generative Pretrained Transformer (GPT) and Large Language Model Meta AI (LLaMA) have attracted much attention in recent years. There is strong evidence that these models can perform remarkably well in various natural language processing tasks. However, how to leverage them to approach domain-specific use cases and drive value remains an open question. In this work, we focus on a specific use case, pharmaceutical manufacturing investigations, and propose that leveraging historical records of manufacturing incidents and deviations in an organization can be beneficial for addressing and closing new cases, or de-risking new manufacturing campaigns. Using a small but diverse dataset of real manufacturing deviations selected from different product lines, we evaluate and quantify the power of three general purpose LLMs (GPT-3.5, GPT-4, and Claude-2) in performing tasks related to the above goal. In particular, (1) the ability of LLMs in automating the process of extracting specific information such as root cause of a case from unstructured data, as well as (2) the possibility of identifying similar or related deviations by performing semantic search on the database of historical records are examined. While our results point to the high accuracy of GPT-4 and Claude-2 in the information extraction task, we discuss cases of complex interplay between the apparent reasoning and hallucination behavior of LLMs as a risk factor. Furthermore, we show that semantic search on vector embedding of deviation descriptions can be used to identify similar records, such as those with a similar type of defect, with a high level of accuracy. We discuss further improvements to enhance the accuracy of similar record identification.

arxiv情報

著者 Hossein Salami,Brandye Smith-Goettler,Vijay Yadav
発行日 2024-04-24 00:56:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク