Distilling Large Language Models for Matching Patients to Clinical Trials

要約

大規模言語モデル (LLM) の最近の成功により、医療という一か八かの分野で LLM を採用する道が開かれました。
具体的には、臨床試験の微妙な包含基準と除外基準に照らして患者の適格性を評価する患者と治験のマッチングにおける LLM の適用が有望であることが示されています。
最近の研究では、OpenAI が開発した広く認知されている LLM である GPT-3.5 が、臨床試験情報と患者概要を比較するだけで、最小限の「変数エンジニアリング」で既存の手法を上回るパフォーマンスを発揮できることが示されています。
ただし、実際の医療アプリケーションで GPT-3.5 のようなクローズドソースの独自 LLM を使用する場合には、コスト、プライバシー、再現性の問題など、重大な課題が伴います。
これらの問題に対処するために、この研究では、患者と治験の照合というタスクに対する独自の LLM (GPT-3.5 および GPT-4) とオープンソースの LLM (LLAMA 7B、13B、および 70B) の両方の有効性を初めて体系的に検証しました。

多面的な評価フレームワークを採用し、各モデルの詳細なエラー分析と併せて、広範な自動化された人間中心の評価を実施しました。
オープンソース LLM の適応性を強化するために、GPT-4 を利用して特殊な合成データセットを作成し、制約されたデータ条件下での効果的な微調整を可能にしました。
私たちの調査結果では、オープンソース LLM が、この限られた合成データセットに基づいて微調整された場合、独自の対応物と同等のパフォーマンスを示すことが明らかになりました。
これは、現実世界の医療アプリケーションに導入する大きなチャンスをもたらします。
この分野でのさらなる研究と応用を促進するために、私たちは注釈付きの評価データセットと微調整された LLM (Trial-LLAMA) の両方を一般公開します。

要約(オリジナル)

The recent success of large language models (LLMs) has paved the way for their adoption in the high-stakes domain of healthcare. Specifically, the application of LLMs in patient-trial matching, which involves assessing patient eligibility against clinical trial’s nuanced inclusion and exclusion criteria, has shown promise. Recent research has shown that GPT-3.5, a widely recognized LLM developed by OpenAI, can outperform existing methods with minimal ‘variable engineering’ by simply comparing clinical trial information against patient summaries. However, there are significant challenges associated with using closed-source proprietary LLMs like GPT-3.5 in practical healthcare applications, such as cost, privacy and reproducibility concerns. To address these issues, this study presents the first systematic examination of the efficacy of both proprietary (GPT-3.5, and GPT-4) and open-source LLMs (LLAMA 7B,13B, and 70B) for the task of patient-trial matching. Employing a multifaceted evaluation framework, we conducted extensive automated and human-centric assessments coupled with a detailed error analysis for each model. To enhance the adaptability of open-source LLMs, we have created a specialized synthetic dataset utilizing GPT-4, enabling effective fine-tuning under constrained data conditions. Our findings reveal that open-source LLMs, when fine-tuned on this limited and synthetic dataset, demonstrate performance parity with their proprietary counterparts. This presents a massive opportunity for their deployment in real-world healthcare applications. To foster further research and applications in this field, we release both the annotated evaluation dataset along with the fine-tuned LLM — Trial-LLAMA — for public use.

arxiv情報

著者 Mauro Nievas,Aditya Basu,Yanshan Wang,Hrituraj Singh
発行日 2023-12-15 17:11:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク