要約
この研究では、人間の表現型オントロジー(HPO)、遺伝子オントロジー(GO)、およびUniprotKB用語全体に対応するオントロジーIDに生物医学的オントロジーの用語をマッピングする能力(LLM)の能力を評価します。
PubMed Central(PMC)データセットのオントロジーIDの数を生物医学文献の有病率の代理として使用して、オントロジーIDの有病率とマッピング精度との関係を調べました。
結果は、オントロジーIDの有病率が、HPO用語のHPO ID、Go IDS、およびタンパク質名への正確なマッピングをUniprotKBアクセッション番号に強く予測することを示しています。
生物医学文献におけるオントロジーIDのより高い有病率は、より高いマッピング精度と相関していました。
受信機の動作特性(ROC)曲線に基づく予測モデルにより、この関係が確認されました。
対照的に、このパターンは、タンパク質名をヒトゲノム組織(Hugo)遺伝子記号にマッピングすることには適用されませんでした。
GPT-4は、タンパク質名をHugo遺伝子記号にマッピングするのに高いベースライン性能(95%)を達成し、マッピングの精度は有病率の影響を受けませんでした。
文献におけるヒューゴ遺伝子シンボルの高い有病率により、これらのシンボルが語彙化され、GPT-4がタンパク質名をHugo遺伝子記号に高精度でマッピングできるようにすることを提案します。
これらの調査結果は、オントロジーの用語のマッピングにおけるLLMSの制限を、低価格オントロジーIDにマッピングすることを強調し、生物医学用途向けのLLMSのトレーニングと評価にオントロジーIDの有病率を組み込むことの重要性を強調しています。
要約(オリジナル)
This study evaluates the ability of large language models (LLMs) to map biomedical ontology terms to their corresponding ontology IDs across the Human Phenotype Ontology (HPO), Gene Ontology (GO), and UniProtKB terminologies. Using counts of ontology IDs in the PubMed Central (PMC) dataset as a surrogate for their prevalence in the biomedical literature, we examined the relationship between ontology ID prevalence and mapping accuracy. Results indicate that ontology ID prevalence strongly predicts accurate mapping of HPO terms to HPO IDs, GO terms to GO IDs, and protein names to UniProtKB accession numbers. Higher prevalence of ontology IDs in the biomedical literature correlated with higher mapping accuracy. Predictive models based on receiver operating characteristic (ROC) curves confirmed this relationship. In contrast, this pattern did not apply to mapping protein names to Human Genome Organisation’s (HUGO) gene symbols. GPT-4 achieved a high baseline performance (95%) in mapping protein names to HUGO gene symbols, with mapping accuracy unaffected by prevalence. We propose that the high prevalence of HUGO gene symbols in the literature has caused these symbols to become lexicalized, enabling GPT-4 to map protein names to HUGO gene symbols with high accuracy. These findings highlight the limitations of LLMs in mapping ontology terms to low-prevalence ontology IDs and underscore the importance of incorporating ontology ID prevalence into the training and evaluation of LLMs for biomedical applications.
arxiv情報
著者 | Thanh Son Do,Daniel B. Hier,Tayo Obafemi-Ajayi |
発行日 | 2025-05-12 15:43:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google