Benchmarking and Analyzing In-context Learning, Fine-tuning and Supervised Learning for Biomedical Knowledge Curation: a focused study on chemical entities of biological interest

要約

生物医学オントロジーの自動化された知識キュレーションは、それらが包括的、高品質、最新の状態に保たれるようにするための鍵となります。
基礎的な言語モデルの時代において、この研究では、キュレーション タスクのための 3 つの NLP パラダイム、インコンテキスト学習 (ICL)、ファインチューニング (FT)、および教師あり学習 (ML) を比較および分析します。
生物学的に興味深い化学物質 (ChEBI) データベースをモデル オントロジーとして使用して、3 つのキュレーション タスクが考案されました。
ICL では、GPT-4、GPT-3.5、BioGPT を使用した 3 つの促進戦略が採用されました。
FT パラダイムには PubmedBERT が選ばれました。
ML では、ランダム フォレスト モデルと長期短期記憶モデルのトレーニングに 6 つの埋め込みモデルが利用されました。
さまざまなデータ可用性シナリオにわたって ML および FT モデルのパフォーマンスを評価するために、5 つのセットアップが設計されました。キュレーション タスクのデータセットには、タスク 1 (620,386)、タスク 2 (611,430)、およびタスク 3 (617,381) が含まれており、ポジティブとネガティブの 50:50 の比率を維持しました。
比率。
ICL モデルの場合、GPT-4 はタスク 1 ~ 3 でそれぞれ 0.916、0.766、0.874 という最高の精度スコアを達成しました。
直接比較すると、ML (約 260,000 トリプルでトレーニング) は、すべてのタスクの精度において ICL を上回りました。
(精度の差: +.11、+.22、+.17)。
微調整された PubmedBERT は、タスク 1 および 2 (F1 の差: -.014 および +.002) では主要な ML モデルと同様のパフォーマンスを示しましたが、タスク 3 (-.048) では悪化しました。
シミュレーションでは、トレーニング データが小さく、不均衡が大きいと、ML モデルと FT モデルの両方でパフォーマンスが低下することが明らかになりました。
ここで、ICL (特に GPT-4) はタスク 1 と 3 で優れていました。GPT-4 はタスク 1 と 3 で 6,000 未満のトリプルで優れており、ML/FT を上回りました。
ICL はタスク 2 で ML/FT のパフォーマンスを下回りました。ICL で拡張された基礎モデルは、適切なプロンプトによる知識キュレーションの優れたアシスタントとなり得ますが、ML および FT パラダイムが時代遅れになるわけではありません。
後の 2 つは、ICL に勝つためにタスク固有のデータを必要とします。
このような場合、ML は事前トレーニングされた小さな埋め込みに依存し、計算要求を最小限に抑えます。

要約(オリジナル)

Automated knowledge curation for biomedical ontologies is key to ensure that they remain comprehensive, high-quality and up-to-date. In the era of foundational language models, this study compares and analyzes three NLP paradigms for curation tasks: in-context learning (ICL), fine-tuning (FT), and supervised learning (ML). Using the Chemical Entities of Biological Interest (ChEBI) database as a model ontology, three curation tasks were devised. For ICL, three prompting strategies were employed with GPT-4, GPT-3.5, BioGPT. PubmedBERT was chosen for the FT paradigm. For ML, six embedding models were utilized for training Random Forest and Long-Short Term Memory models. Five setups were designed to assess ML and FT model performance across different data availability scenarios.Datasets for curation tasks included: task 1 (620,386), task 2 (611,430), and task 3 (617,381), maintaining a 50:50 positive versus negative ratio. For ICL models, GPT-4 achieved best accuracy scores of 0.916, 0.766 and 0.874 for tasks 1-3 respectively. In a direct comparison, ML (trained on ~260,000 triples) outperformed ICL in accuracy across all tasks. (accuracy differences: +.11, +.22 and +.17). Fine-tuned PubmedBERT performed similarly to leading ML models in tasks 1 & 2 (F1 differences: -.014 and +.002), but worse in task 3 (-.048). Simulations revealed performance declines in both ML and FT models with smaller and higher imbalanced training data. where ICL (particularly GPT-4) excelled in tasks 1 & 3. GPT-4 excelled in tasks 1 and 3 with less than 6,000 triples, surpassing ML/FT. ICL underperformed ML/FT in task 2.ICL-augmented foundation models can be good assistants for knowledge curation with correct prompting, however, not making ML and FT paradigms obsolete. The latter two require task-specific data to beat ICL. In such cases, ML relies on small pretrained embeddings, minimizing computational demands.

arxiv情報

著者 Emily Groves,Minhong Wang,Yusuf Abdulle,Holger Kunz,Jason Hoelscher-Obermaier,Ronin Wu,Honghan Wu
発行日 2023-12-20 12:46:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, q-bio.QM パーマリンク