A Scalable Tool For Analyzing Genomic Variants Of Humans Using Knowledge Graphs and Machine Learning

要約

ゲノムデータ分析におけるナレッジグラフとグラフ機械学習 (GML) の統合は、特に RNA レベルでの複雑な遺伝的関係を理解するためのいくつかの機会を提供します。
これらのテクノロジーを活用してゲノムバリアントを分析するための包括的なアプローチを、特に COVID-19 患者サンプルからの RNA シーケンス (RNA-seq) データのコンテキストで提案します。
提案された方法には、バリアントレベルの遺伝情報を抽出し、SnpEff を使用して追加のメタデータでデータに注釈を付け、強化されたバリアント コール フォーマット (VCF) ファイルをリソース記述フレームワーク (RDF) トリプルに変換することが含まれます。
結果として得られるナレッジ グラフは、患者のメタデータでさらに強化され、グラフ データベースに保存されるため、効率的なクエリとインデックス付けが容易になります。
ディープ グラフ ライブラリ (DGL) を利用して、GraphSAGE およびグラフ畳み込みネットワーク (GCN) によるノード分類などのグラフ機械学習タスクを実行します。
私たちのアプローチは、新しい VCF データによるグラフの強化、ユーザー定義の特徴に基づくサブグラフの作成、ノード分類のためのグラフ機械学習の実施という 3 つの主要なシナリオで、私たちが提案するツール VariantKG を使用することによる重要な有用性を実証しています。

要約(オリジナル)

The integration of knowledge graphs and graph machine learning (GML) in genomic data analysis offers several opportunities for understanding complex genetic relationships, especially at the RNA level. We present a comprehensive approach for leveraging these technologies to analyze genomic variants, specifically in the context of RNA sequencing (RNA-seq) data from COVID-19 patient samples. The proposed method involves extracting variant-level genetic information, annotating the data with additional metadata using SnpEff, and converting the enriched Variant Call Format (VCF) files into Resource Description Framework (RDF) triples. The resulting knowledge graph is further enhanced with patient metadata and stored in a graph database, facilitating efficient querying and indexing. We utilize the Deep Graph Library (DGL) to perform graph machine learning tasks, including node classification with GraphSAGE and Graph Convolutional Networks (GCNs). Our approach demonstrates significant utility using our proposed tool, VariantKG, in three key scenarios: enriching graphs with new VCF data, creating subgraphs based on user-defined features, and conducting graph machine learning for node classification.

arxiv情報

著者 Shivika Prasanna,Ajay Kumar,Deepthi Rao,Eduardo Simoes,Praveen Rao
発行日 2024-07-30 14:56:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク