Representation Learning for Person or Entity-centric Knowledge Graphs: An Application in Healthcare




– 知識グラフ(KG)は、オントロジーやスキーマに基づいて情報を整理するための一般的な手法であり、検索から推奨など、さまざまなシナリオで使用されています。
– KGには、エンティティ間の複雑な相互関係、異種構成、標準化の欠如、データのまばらさなどがあるため、特にバイオメディカルやヘルスケアのドメインにおいて知識の表現は非常に困難です。
– KGは、疾患に関連する診断を発見したり、優先的な遺伝子を特定したりするために使用されますが、しばしば関心のあるノードやエンティティ、例えば人物を中心としたスキーマに依存していません。
– エンティティ中心のKGは比較的未開拓であり、重要な側面を中心のノードに接続し、グラフのトラバースや推論以外の次の段階、例えばグラフ埋め込みの生成や広範な予測タスクのためのグラフニューラルネットワークのトレーニングを可能にする可能性があります。
– この論文では、構造化と非構造化データからエンティティ中心のKGを抽出するためのエンドツーエンドの表現学習フレームワークを紹介しています。
– 著者らは、中心は人物の多様な側面を表現する星型オントロジーを導入し、KGの作成をガイドしています。
– グラフニューラルネットワークを活用してグラフのコンパクトな表現が作成され、異種構成や明示性のレベルを変化させた実験が行われました。
– 著者らは、再入院予測タスクを用いて提案フレームワークの結果を評価し、欠落データに対してロバストで、一連のベースライン機械学習分類器を上回る安定したシステムであることを示しています。
– このアプローチには、さまざまなドメインでの潜在的な応用があり、オープンソース化されています。
– 最後に、実践でのフレームワークの採用のための得られた教訓、課題、次のステップについて議論しています。


Knowledge graphs (KGs) are a popular way to organise information based on ontologies or schemas and have been used across a variety of scenarios from search to recommendation. Despite advances in KGs, representing knowledge remains a non-trivial task across industries and it is especially challenging in the biomedical and healthcare domains due to complex interdependent relations between entities, heterogeneity, lack of standardization, and sparseness of data. KGs are used to discover diagnoses or prioritize genes relevant to disease, but they often rely on schemas that are not centred around a node or entity of interest, such as a person. Entity-centric KGs are relatively unexplored but hold promise in representing important facets connected to a central node and unlocking downstream tasks beyond graph traversal and reasoning, such as generating graph embeddings and training graph neural networks for a wide range of predictive tasks. This paper presents an end-to-end representation learning framework to extract entity-centric KGs from structured and unstructured data. We introduce a star-shaped ontology to represent the multiple facets of a person and use it to guide KG creation. Compact representations of the graphs are created leveraging graph neural networks and experiments are conducted using different levels of heterogeneity or explicitness. A readmission prediction task is used to evaluate the results of the proposed framework, showing a stable system, robust to missing data, that outperforms a range of baseline machine learning classifiers. We highlight that this approach has several potential applications across domains and is open-sourced. Lastly, we discuss lessons learned, challenges, and next steps for the adoption of the framework in practice.


著者 Christos Theodoropoulos,Natasha Mulligan,Thaddeus Stappenbeck,Joao Bettencourt-Silva
発行日 2023-05-10 11:09:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク