生物医学概念正規化 (BCN) とは異なり、コンテキストからの手がかりを使用して同義語予測を強化することはできないため、オントロジーからグラフの特徴を抽出することが不可欠になります。
同義語予測方法を評価するために、70 種類の概念と 200 万の厳選された概念と用語のペアを含む、専門家によって厳選されたデータセット OBO-syn を紹介します。
BCN メソッドは、グラフ情報を十分に活用していないため、このタスクではパフォーマンスが低いことがわかりました。
そこで、グラフに従ってプロンプトテンプレートを作成するプロンプトベースの学習アプローチである GraphPrompt を提案します。
GraphPrompt では、ゼロショット設定と少数ショット設定でそれぞれ 37.2\% と 28.5\% の改善が得られ、これらのグラフベースのプロンプト テンプレートの有効性が示されました。
私たちは、私たちのメソッド GraphPrompt と OBO-syn データセットがグラフベースの NLP タスクに広く適用でき、蓄積された多様な生物医学データを分析するための基礎として機能すると考えています。
すべてのデータとコードは、https://github.com/HanwenXuTHU/GraphPrompt で入手できます。
In the expansion of biomedical dataset, the same category may be labeled with different terms, thus being tedious and onerous to curate these terms. Therefore, automatically mapping synonymous terms onto the ontologies is desirable, which we name as biomedical synonym prediction task. Unlike biomedical concept normalization (BCN), no clues from context can be used to enhance synonym prediction, making it essential to extract graph features from ontology. We introduce an expert-curated dataset OBO-syn encompassing 70 different types of concepts and 2 million curated concept-term pairs for evaluating synonym prediction methods. We find BCN methods perform weakly on this task for not making full use of graph information. Therefore, we propose GraphPrompt, a prompt-based learning approach that creates prompt templates according to the graphs. GraphPrompt obtained 37.2\% and 28.5\% improvement on zero-shot and few-shot settings respectively, indicating the effectiveness of these graph-based prompt templates. We envision that our method GraphPrompt and OBO-syn dataset can be broadly applied to graph-based NLP tasks, and serve as the basis for analyzing diverse and accumulating biomedical data. All the data and codes are avalible at: https://github.com/HanwenXuTHU/GraphPrompt
著者 | Hanwen Xu,Jiayou Zhang,Zhirui Wang,Shizhuo Zhang,Megh Manoj Bhalerao,Yucong Liu,Dawei Zhu,Sheng Wang |
発行日 | 2023-11-28 14:37:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google