Representation Learning for Person or Entity-centric Knowledge Graphs: An Application in Healthcare

要約

ナレッジ グラフ (KG) は、オントロジーやスキーマに基づいて情報を整理する一般的な方法であり、検索から推奨までのさまざまなシナリオで使用されています。
KG の進歩にもかかわらず、知識を表現することは業界全体で依然として重要なタスクであり、エンティティ間の複雑な相互依存関係、異質性、標準化の欠如、およびデータの希薄さにより、生物医学およびヘルスケアの分野では特に困難です。
KG は、診断を発見したり、病気に関連する遺伝子に優先順位を付けたりするために使用されますが、多くの場合、人などの対象となるノードやエンティティを中心としていないスキーマに依存します。
エンティティ中心の KG は比較的未開発ですが、セントラル ノードに接続された重要なファセットを表現し、グラフ エンベディングの生成や幅広い予測タスク用のグラフ ニューラル ネットワークのトレーニングなど、グラフの走査と推論を超えた下流タスクのロックを解除するという点で有望です。
この論文では、構造化データと非構造化データからエンティティ中心の KG を抽出するためのエンドツーエンドの表現学習フレームワークを紹介します。
私たちは、人のさまざまな側面を表す星型のオントロジーを導入し、それを KG 作成のガイドに使用します。
グラフのコンパクトな表現はグラフ ニューラル ネットワークを活用して作成され、さまざまなレベルの異質性または明示性を使用して実験が実行されます。
再入院予測タスクは、提案されたフレームワークの結果を評価するために使用され、欠損データに対して堅牢で、ベースラインの機械学習分類器の範囲を上回る安定したシステムを示しています。
このアプローチにはさまざまな分野に応用できる可能性があり、オープンソースであることを強調します。
最後に、学んだ教訓、課題、フレームワークを実際に導入するための次のステップについて説明します。

要約(オリジナル)

Knowledge graphs (KGs) are a popular way to organise information based on ontologies or schemas and have been used across a variety of scenarios from search to recommendation. Despite advances in KGs, representing knowledge remains a non-trivial task across industries and it is especially challenging in the biomedical and healthcare domains due to complex interdependent relations between entities, heterogeneity, lack of standardization, and sparseness of data. KGs are used to discover diagnoses or prioritize genes relevant to disease, but they often rely on schemas that are not centred around a node or entity of interest, such as a person. Entity-centric KGs are relatively unexplored but hold promise in representing important facets connected to a central node and unlocking downstream tasks beyond graph traversal and reasoning, such as generating graph embeddings and training graph neural networks for a wide range of predictive tasks. This paper presents an end-to-end representation learning framework to extract entity-centric KGs from structured and unstructured data. We introduce a star-shaped ontology to represent the multiple facets of a person and use it to guide KG creation. Compact representations of the graphs are created leveraging graph neural networks and experiments are conducted using different levels of heterogeneity or explicitness. A readmission prediction task is used to evaluate the results of the proposed framework, showing a stable system, robust to missing data, that outperforms a range of baseline machine learning classifiers. We highlight that this approach has several potential applications across domains and is open-sourced. Lastly, we discuss lessons learned, challenges, and next steps for the adoption of the framework in practice.

arxiv情報

著者 Christos Theodoropoulos,Natasha Mulligan,Thaddeus Stappenbeck,Joao Bettencourt-Silva
発行日 2023-10-09 11:58:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク