Ontology Enrichment from Texts: A Biomedical Dataset for Concept Discovery and Placement

要約

新しい概念の言及はテキストに定期的に出現し、それらを収集してナレッジベース (KB) に配置するための自動化されたアプローチ (オントロジーや分類法など) が必要です。
既存のデータセットには 3 つの問題があります。(i) ほとんどの場合、新しい概念が事前に発見されていると想定されており、KB 範囲外の言及の発見をサポートできません。
(ii) KB とともに概念ラベルを入力としてのみ使用するため、概念ラベルのコンテキストが欠落しています。
(iii) 複雑な概念ではなく、つまり論理演算子を使用するのではなく、原子概念の分類に基づく概念の配置に主に焦点を当てます。
これらの問題に対処するために、我々は、疾患サブカテゴリと臨床所見、処置、医薬品/生物製剤のより広範なカテゴリの下で、2014 年と 2017 年の SNOMED CT バージョンに MedMentions データセット (PubMed 抄録) を適応させた新しいベンチマークを提案します。
最近の大規模言語モデルベースの手法を適応させて、KB 範囲外の言及の発見と概念の配置のためのデータセットによる評価の使用法を提供します。

要約(オリジナル)

Mentions of new concepts appear regularly in texts and require automated approaches to harvest and place them into Knowledge Bases (KB), e.g., ontologies and taxonomies. Existing datasets suffer from three issues, (i) mostly assuming that a new concept is pre-discovered and cannot support out-of-KB mention discovery; (ii) only using the concept label as the input along with the KB and thus lacking the contexts of a concept label; and (iii) mostly focusing on concept placement w.r.t a taxonomy of atomic concepts, instead of complex concepts, i.e., with logical operators. To address these issues, we propose a new benchmark, adapting MedMentions dataset (PubMed abstracts) with SNOMED CT versions in 2014 and 2017 under the Diseases sub-category and the broader categories of Clinical finding, Procedure, and Pharmaceutical / biologic product. We provide usage on the evaluation with the dataset for out-of-KB mention discovery and concept placement, adapting recent Large Language Model based methods.

arxiv情報

著者 Hang Dong,Jiaoyan Chen,Yuan He,Ian Horrocks
発行日 2023-08-11 14:17:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク