要約
新しい概念の言及は、テキスト中に定期的に出現し、オントロジーやタクソノミーなどの知識ベース(KB)に格納するための自動化されたアプローチを必要とする。既存のデータセットは、(i)新概念が事前に発見されることを前提としており、KB外での言及発見をサポートできない、(ii)KBとともに概念ラベルを入力として使用するだけであり、概念ラベルのコンテキストが欠けている、(iii)複雑な概念ではなく、原子概念のタクソノミーを使用した概念配置、すなわち論理演算子に焦点を当てている、という3つの問題を抱えている。これらの問題に対処するために、我々は新しいベンチマークを提案する。MedMentionsデータセット(PubMed抄録)を、DiseasesサブカテゴリとClinical finding、Procedure、Pharmaceutical / biologic productの広いカテゴリの下で、2014年と2017年のSNOMED CTバージョンに適合させる。我々は、最近の大規模言語モデルに基づく方法を適応させた、KB外の言及発見と概念配置のためのデータセットでの評価に関する使用法を提供する。
要約(オリジナル)
Mentions of new concepts appear regularly in texts and require automated approaches to harvest and place them into Knowledge Bases (KB), e.g., ontologies and taxonomies. Existing datasets suffer from three issues, (i) mostly assuming that a new concept is pre-discovered and cannot support out-of-KB mention discovery; (ii) only using the concept label as the input along with the KB and thus lacking the contexts of a concept label; and (iii) mostly focusing on concept placement w.r.t a taxonomy of atomic concepts, instead of complex concepts, i.e., with logical operators. To address these issues, we propose a new benchmark, adapting MedMentions dataset (PubMed abstracts) with SNOMED CT versions in 2014 and 2017 under the Diseases sub-category and the broader categories of Clinical finding, Procedure, and Pharmaceutical / biologic product. We provide usage on the evaluation with the dataset for out-of-KB mention discovery and concept placement, adapting recent Large Language Model based methods.
arxiv情報
著者 | Hang Dong,Jiaoyan Chen,Yuan He,Ian Horrocks |
発行日 | 2023-09-01 15:26:45+00:00 |
arxivサイト | arxiv_id(pdf) |