The Power of Combining Data and Knowledge: GPT-4o is an Effective Interpreter of Machine Learning Models in Predicting Lymph Node Metastasis of Lung Cancer

要約

リンパ節転移 (LNM) は肺がん患者の初期治療を決定する重要な要素ですが、LNM の正確な術前診断は依然として困難です。
最近、大規模言語モデル (LLM) は、その優れたテキスト生成機能により大きな注目を集めています。
LLM は、膨大なコーパスから学んだ広範な医学知識を活用して臨床問題の確率を推定できますが、そのパフォーマンスは歴史的にデータ駆動型の機械学習モデルより劣っていました。
この論文では、LLM によって取得された医療知識と機械学習モデルによって特定された潜在パターンを組み合わせて、LNM 予測パフォーマンスを向上させる新しいアンサンブル手法を提案します。
当初、私たちは患者データを使用して機械学習モデルを開発しました。
次に、患者データを機械学習モデルからの予測確率と統合するためのプロンプト テンプレートを設計しました。
続いて、OpenAI が開発した最先端の LLM である GPT-4o に、患者データに基づいて LNM の可能性を推定し、機械学習の出力を使用して推定値を調整するように指示しました。
最後に、同じプロンプトを使用して GPT-4o から 3 つの出力を収集し、これらの結果を最終予測としてアンサンブルしました。
提案された方法を使用すると、私たちのモデルは LNM 予測で 0.765 の AUC 値と 0.415 の AP 値を達成し、ベースラインの機械学習モデルと比較して予測パフォーマンスが大幅に向上しました。
実験結果は、GPT-4o がその医学知識と機械学習モデルによって予測された確率を効果的に活用して、より正確な LNM 予測を達成できることを示しています。
これらの発見は、LLM が臨床リスク予測タスクで優れたパフォーマンスを発揮し、臨床予測に医療知識と患者データを統合するための新しいパラダイムを提供できることを示しています。

要約(オリジナル)

Lymph node metastasis (LNM) is a crucial factor in determining the initial treatment for patients with lung cancer, yet accurate preoperative diagnosis of LNM remains challenging. Recently, large language models (LLMs) have garnered significant attention due to their remarkable text generation capabilities. Leveraging the extensive medical knowledge learned from vast corpora, LLMs can estimate probabilities for clinical problems, though their performance has historically been inferior to data-driven machine learning models. In this paper, we propose a novel ensemble method that combines the medical knowledge acquired by LLMs with the latent patterns identified by machine learning models to enhance LNM prediction performance. Initially, we developed machine learning models using patient data. We then designed a prompt template to integrate the patient data with the predicted probability from the machine learning model. Subsequently, we instructed GPT-4o, the most advanced LLM developed by OpenAI, to estimate the likelihood of LNM based on patient data and then adjust the estimate using the machine learning output. Finally, we collected three outputs from the GPT-4o using the same prompt and ensembled these results as the final prediction. Using the proposed method, our models achieved an AUC value of 0.765 and an AP value of 0.415 for LNM prediction, significantly improving predictive performance compared to baseline machine learning models. The experimental results indicate that GPT-4o can effectively leverage its medical knowledge and the probabilities predicted by machine learning models to achieve more accurate LNM predictions. These findings demonstrate that LLMs can perform well in clinical risk prediction tasks, offering a new paradigm for integrating medical knowledge and patient data in clinical predictions.

arxiv情報

著者 Danqing Hu,Bing Liu,Xiaofeng Zhu,Nan Wu
発行日 2024-07-25 09:42:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク