要約
目的: 生物医学ナレッジグラフは、さまざまな生物医学研究領域で極めて重要な役割を果たします。
同時に、用語のクラスタリングが、同義の用語を識別することを目的とした、これらのナレッジ グラフの構築における重要なステップとして浮上します。
知識が不足しているため、統一医療言語システム (UMLS) 同義語でトレーニングされた以前の対照学習モデルは、難しい用語をクラスタリングするのに苦労し、UMLS 用語を超えて一般化することができません。
この研究では、大規模言語モデル (LLM) からの世界の知識を活用し、用語の表現を強化し、用語のクラスタリングを大幅に改善するために、説明による用語の表現のための対照学習 (CoRTEx) を提案します。
材料と方法: モデルのトレーニングには、ChatGPT を使用して、クリーンアップされた UMLS 用語のサブセットの説明を生成することが含まれます。
私たちは対照学習を採用し、用語と説明の埋め込みを同時に考慮し、ハードネガティブサンプルを段階的に導入します。
さらに、ChatGPT 支援の BIRCH アルゴリズムは、新しいオントロジーの効率的なクラスタリングのために設計されています。
結果: モデルが一貫して最高の F1 スコアを達成するクラスタリング テスト セットとハード ネガティブ テスト セットを確立しました。
CoRTEx 埋め込みと修正された BIRCH アルゴリズムを使用して、生物医学情報オントロジー システム (BIOS) からの 35,580,932 の用語を、ChatGPT への O(N) クエリを持つ 22,104,559 のクラスターにグループ化しました。
ケーススタディでは、説明からの情報を活用して、困難なサンプルを処理する際のモデルの有効性を強調しています。
結論: CoRTEx は、用語をその説明に合わせることで、ベンチマーク モデルよりも優れた精度とトレーニング セットを超える堅牢性を実証し、大規模な生物医学オントロジーの用語のクラスタリングに適しています。
要約(オリジナル)
Objective: Biomedical Knowledge Graphs play a pivotal role in various biomedical research domains. Concurrently, term clustering emerges as a crucial step in constructing these knowledge graphs, aiming to identify synonymous terms. Due to a lack of knowledge, previous contrastive learning models trained with Unified Medical Language System (UMLS) synonyms struggle at clustering difficult terms and do not generalize well beyond UMLS terms. In this work, we leverage the world knowledge from Large Language Models (LLMs) and propose Contrastive Learning for Representing Terms via Explanations (CoRTEx) to enhance term representation and significantly improves term clustering. Materials and Methods: The model training involves generating explanations for a cleaned subset of UMLS terms using ChatGPT. We employ contrastive learning, considering term and explanation embeddings simultaneously, and progressively introduce hard negative samples. Additionally, a ChatGPT-assisted BIRCH algorithm is designed for efficient clustering of a new ontology. Results: We established a clustering test set and a hard negative test set, where our model consistently achieves the highest F1 score. With CoRTEx embeddings and the modified BIRCH algorithm, we grouped 35,580,932 terms from the Biomedical Informatics Ontology System (BIOS) into 22,104,559 clusters with O(N) queries to ChatGPT. Case studies highlight the model’s efficacy in handling challenging samples, aided by information from explanations. Conclusion: By aligning terms to their explanations, CoRTEx demonstrates superior accuracy over benchmark models and robustness beyond its training set, and it is suitable for clustering terms for large-scale biomedical ontologies.
arxiv情報
著者 | Huaiyuan Ying,Zhengyun Zhao,Yang Zhao,Sihang Zeng,Sheng Yu |
発行日 | 2023-12-13 10:29:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google