Benchmark datasets for biomedical knowledge graphs with negative statements

要約

ナレッジ グラフは、現実世界のエンティティに関する事実を表します。
これらの事実のほとんどは肯定的な記述として定義されています。
否定的な記述はほとんどありませんが、オープンワールドの仮定の下では非常に関連性があります。
さらに、それらはいくつかのアプリケーション、すなわち生物医学分野のパフォーマンスを向上させることが実証されています。
ただし、これらの否定的なステートメントを考慮した手法の評価をサポートするベンチマーク データセットはありません。
我々は、否定的なステートメントを含むナレッジグラフのベンチマークを構築する際の困難を回避することを目的とした、タンパク質間相互作用予測、遺伝子疾患関連予測、疾患予測という 3 つの関係予測タスク用のデータセットのコレクションを紹介します。
これらのデータセットには、遺伝子オントロジーとヒト表現型オントロジーという 2 つの成功した生物医学オントロジーからのデータが含まれており、否定的な記述が豊富に含まれています。
また、2 つの一般的なパスベースの方法を使用して各データセットのナレッジ グラフ エンベディングを生成し、各タスクのパフォーマンスを評価します。
結果は、否定的なステートメントによってナレッジ グラフ埋め込みのパフォーマンスが向上する可能性があることを示しています。

要約(オリジナル)

Knowledge graphs represent facts about real-world entities. Most of these facts are defined as positive statements. The negative statements are scarce but highly relevant under the open-world assumption. Furthermore, they have been demonstrated to improve the performance of several applications, namely in the biomedical domain. However, no benchmark dataset supports the evaluation of the methods that consider these negative statements. We present a collection of datasets for three relation prediction tasks – protein-protein interaction prediction, gene-disease association prediction and disease prediction – that aim at circumventing the difficulties in building benchmarks for knowledge graphs with negative statements. These datasets include data from two successful biomedical ontologies, Gene Ontology and Human Phenotype Ontology, enriched with negative statements. We also generate knowledge graph embeddings for each dataset with two popular path-based methods and evaluate the performance in each task. The results show that the negative statements can improve the performance of knowledge graph embeddings.

arxiv情報

著者 Rita T. Sousa,Sara Silva,Catia Pesquita
発行日 2023-07-21 17:25:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク