要約
タイトル:医療用文章におけるタンパク質-タンパク質相互作用を特定するGPTおよびBERTベースのモデルの評価
要約:
– 医療文献は爆発的に増加しており、タンパク質-タンパク質相互作用(PPI)を自動かつ正確に抽出する方法が必要とされている。
– GPTやBERTなどのプレトレーニング済み言語モデルは、自然言語処理タスクにおいて有望な結果を示している。
– 手動で作成されたベンチマークコーパスを使って、さまざまなGPTおよびBERTモデルを評価し、PPIの特定能力を比較した。
– BERTベースのモデルは、最高の性能を発揮し、PubMedBERTは最高の精度(85.17%)とF1スコア(86.47%)を、BioM-ALBERTは最高の再現率(93.83%)を達成した。
– 非医療文書用に明示的に訓練されていないにもかかわらず、GPT-4は最高のBERTモデルと比較可能な性能を発揮した。
– これらの結果から、GPTモデルはテキストデータからPPIを効果的に検出できると示唆され、医療文献マイニングタスクに活用できる可能性がある。
要約(オリジナル)
Detecting protein-protein interactions (PPIs) is crucial for understanding genetic mechanisms, disease pathogenesis, and drug design. However, with the fast-paced growth of biomedical literature, there is a growing need for automated and accurate extraction of PPIs to facilitate scientific knowledge discovery. Pre-trained language models, such as generative pre-trained transformer (GPT) and bidirectional encoder representations from transformers (BERT), have shown promising results in natural language processing (NLP) tasks. We evaluated the PPI identification performance of various GPT and BERT models using a manually curated benchmark corpus of 164 PPIs in 77 sentences from learning language in logic (LLL). BERT-based models achieved the best overall performance, with PubMedBERT achieving the highest precision (85.17%) and F1-score (86.47%) and BioM-ALBERT achieving the highest recall (93.83%). Despite not being explicitly trained for biomedical texts, GPT-4 achieved comparable performance to the best BERT models with 83.34% precision, 76.57% recall, and 79.18% F1-score. These findings suggest that GPT models can effectively detect PPIs from text data and have the potential for use in biomedical literature mining tasks.
arxiv情報
著者 | Hasin Rehana,Nur Bengisu Çam,Mert Basmaci,Yongqun He,Arzucan Özgür,Junguk Hur |
発行日 | 2023-03-30 22:06:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI