MapperGPT: Large Language Models for Linking and Mapping Entities

要約

オントロジー、管理された語彙、分類法、値セットなどの用語リソースを調整することは、医療、化学、生物医学研究などの多くの領域におけるデータ統合の重要な部分です。
エンティティ マッピングは、遺伝子識別子、疾患概念、化学エンティティ識別子など、これらのリソースにわたるエンティティ間の対応関係を決定するプロセスです。
共通の構造的特徴や、ラベルや同義語などの語彙情報に基づいてこのようなマッピングを計算するための多くのツールが開発されています。
特に語彙的アプローチでは、多くの場合、非常に高い再現率が得られますが、語彙の曖昧さのために精度が低くなります。
この結果、マッピングの取り組みでは、人間の管理者による労働集約的な手動マッピングの改良に頼ることがよくあります。
ChatGPT で採用されているような大規模言語モデル (LLM) は、質問応答や情報抽出などの幅広いタスクを実行するための一般化可能な機能を備えています。
ここでは、語彙的および構造的ヒューリスティックに基づく既存の高再現率手法と連携して、LLM を使用して後処理ステップとしてマッピング関係をレビューおよび改良するアプローチである MapperGPT を紹介します。
私たちは、解剖学、発生生物学、腎疾患など、さまざまな分野の一連のアライメント タスクで MapperGPT を評価しました。
私たちは、語彙的手法にとって特に困難になるように設計されたタスクのコレクションを考案しました。
高再現率メソッドと組み合わせて使用​​すると、MapperGPT が精度を大幅に向上させ、LogMap などの最先端 (SOTA) メソッドを上回ることができることを示します。

要約(オリジナル)

Aligning terminological resources, including ontologies, controlled vocabularies, taxonomies, and value sets is a critical part of data integration in many domains such as healthcare, chemistry, and biomedical research. Entity mapping is the process of determining correspondences between entities across these resources, such as gene identifiers, disease concepts, or chemical entity identifiers. Many tools have been developed to compute such mappings based on common structural features and lexical information such as labels and synonyms. Lexical approaches in particular often provide very high recall, but low precision, due to lexical ambiguity. As a consequence of this, mapping efforts often resort to a labor intensive manual mapping refinement through a human curator. Large Language Models (LLMs), such as the ones employed by ChatGPT, have generalizable abilities to perform a wide range of tasks, including question-answering and information extraction. Here we present MapperGPT, an approach that uses LLMs to review and refine mapping relationships as a post-processing step, in concert with existing high-recall methods that are based on lexical and structural heuristics. We evaluated MapperGPT on a series of alignment tasks from different domains, including anatomy, developmental biology, and renal diseases. We devised a collection of tasks that are designed to be particularly challenging for lexical methods. We show that when used in combination with high-recall methods, MapperGPT can provide a substantial improvement in accuracy, beating state-of-the-art (SOTA) methods such as LogMap.

arxiv情報

著者 Nicolas Matentzoglu,J. Harry Caufield,Harshad B. Hegde,Justin T. Reese,Sierra Moxon,Hyeongsik Kim,Nomi L. Harris,Melissa A Haendel,Christopher J. Mungall
発行日 2023-10-05 16:43:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク