Automatic Glossary of Clinical Terminology: a Large-Scale Dictionary of Biomedical Definitions Generated from Ontological Knowledge

要約

背景: 400,000 を超える生物医学概念とその関係の一部が、包括的な生物医学オントロジーである SnomedCT に含まれています。
ただし、その概念名は、専門家以外の人や、自分の電子医療記録 (EHR) を見ている患者には必ずしも容易に解釈できるわけではありません。
わかりやすい言葉での明確な定義や説明が存在しないことがよくあります。
したがって、生物医学の概念について人間が判読できる定義を生成することは、それらがエンコードした情報をより多くの人々がアクセスし、理解できるようにするのに役立つ可能性があります。
目的: この記事では、SnomedCT に含まれる生物医学的知識から抽出された高品質の情報を使用して生成された、臨床概念の大規模な生物医学辞書である臨床用語自動用語集 (AGCT) を紹介します。
方法: GPT 3.5 のバリアントである OpenAI Turbo モデルをプロンプトした後、定義される概念の SnomedCT 関係の高品質な言語化を使用して、すべての SnomedCT 概念の新しい定義を生成します。
その後、生成された定義の重要なサブセットが、生物医学の専門知識を持つ NLP 研究者によって、事実性、洞察力、流暢性という 3 つの軸に沿った 5 段階評価で評価されました。
結果: AGCT には、疾患、処置、薬物、解剖学などのさまざまな領域をカバーする、SnomedCT の概念についてコンピューターで生成された 422,070 の定義が含まれています。
定義の平均長は 49 ワードです。
定義には 3 つの軸すべてで 5 点満点中 4.5 以上の平均スコアが割り当てられ、大部分が事実に基づいており、洞察力に富み、流暢な定義であることを示しています。
結論: AGCT は、SnomedCT の概念を人間が読める形式で定義する必要がある生物医学タスクにとって、新規かつ貴重なリソースです。
また、堅牢な生物医学検索モデルや生物医学知識の自然言語理解を活用するその他のアプリケーションを開発するための基盤としても機能します。

要約(オリジナル)

Background: More than 400,000 biomedical concepts and some of their relationships are contained in SnomedCT, a comprehensive biomedical ontology. However, their concept names are not always readily interpretable by non-experts, or patients looking at their own electronic health records (EHR). Clear definitions or descriptions in understandable language are often not available. Therefore, generating human-readable definitions for biomedical concepts might help make the information they encode more accessible and understandable to a wider public. Objective: In this article, we introduce the Automatic Glossary of Clinical Terminology (AGCT), a large-scale biomedical dictionary of clinical concepts generated using high-quality information extracted from the biomedical knowledge contained in SnomedCT. Methods: We generate a novel definition for every SnomedCT concept, after prompting the OpenAI Turbo model, a variant of GPT 3.5, using a high-quality verbalization of the SnomedCT relationships of the to-be-defined concept. A significant subset of the generated definitions was subsequently judged by NLP researchers with biomedical expertise on 5-point scales along the following three axes: factuality, insight, and fluency. Results: AGCT contains 422,070 computer-generated definitions for SnomedCT concepts, covering various domains such as diseases, procedures, drugs, and anatomy. The average length of the definitions is 49 words. The definitions were assigned average scores of over 4.5 out of 5 on all three axes, indicating a majority of factual, insightful, and fluent definitions. Conclusion: AGCT is a novel and valuable resource for biomedical tasks that require human-readable definitions for SnomedCT concepts. It can also serve as a base for developing robust biomedical retrieval models or other applications that leverage natural language understanding of biomedical knowledge.

arxiv情報

著者 François Remy,Thomas Demeester
発行日 2023-06-01 13:37:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク