Enhancing Omics Cohort Discovery for Research on Neurodegeneration through Ontology-Augmented Embedding Models

要約

神経変性疾患(NDS)のために生成されたOMICSと臨床データの増加には、キュレーションに新しいアプローチが必要になるため、バイオインフォマティクスですぐに使用できるようになります。
NeuroEmbedは、コホートとサンプルを表すために、意味的に正確な埋め込みスペースのエンジニアリングのアプローチです。
神経膨張法は、4つの段階で構成されています。(1)公開リポジトリからのNDコホートの抽出。
(2)コホートおよびサンプルのメタデータの半自動化された正規化と増強および生物医学的オントロジーを使用し、埋め込み空間でのクラスタリング。
(3)標準化されたメタデータ寸法のランダム化された組み合わせと(4)ドメイン固有のエンバダーの微調整に基づいて、コホートとサンプルの自然言語の質問回答(QA)データセットの自動生成。クエリを最適化する。
GEOリポジトリとPubMedbertが前処理された埋め込みを使用したアプローチを説明します。
NeuroEmbedを適用すると、2,801個のリポジトリと150,924個のサンプルを意味的にインデックスを付けました。
多くの生物学に関連するカテゴリーの中で、GEOから326のユニークなオントロジー並列概念に1,700を超える不均一な組織ラベルを正規化し、新しいオントロジー並列用語で濃縮した注釈を豊​​富にし、2.7から20倍のメタデータ項のサイズが倍に増加しました。
QAトレーニングデータを拡大したメタデータで微調整したPubMedbertの後、モデルは平均検索精度を0.277から0.866に増やし、平均パーセンタイルランクは0.355から0.896に増加しました。
OMICSコホートとサンプルの電子カタログを作成するための神経が膨らんだ方法論は、自動化されたバイオインフォマティックパイプライン構造を促進します。
コホートとサンプルのニューロエンベッドカタログは、https://github.com/joseadrian3/neuroembedで入手できます。

要約(オリジナル)

The growing volume of omics and clinical data generated for neurodegenerative diseases (NDs) requires new approaches for their curation so they can be ready-to-use in bioinformatics. NeuroEmbed is an approach for the engineering of semantically accurate embedding spaces to represent cohorts and samples. The NeuroEmbed method comprises four stages: (1) extraction of ND cohorts from public repositories; (2) semi-automated normalization and augmentation of metadata of cohorts and samples using biomedical ontologies and clustering on the embedding space; (3) automated generation of a natural language question-answering (QA) dataset for cohorts and samples based on randomized combinations of standardized metadata dimensions and (4) fine-tuning of a domain-specific embedder to optimize queries. We illustrate the approach using the GEO repository and the PubMedBERT pretrained embedder. Applying NeuroEmbed, we semantically indexed 2,801 repositories and 150,924 samples. Amongst many biology-relevant categories, we normalized more than 1,700 heterogeneous tissue labels from GEO into 326 unique ontology-aligned concepts and enriched annotations with new ontology-aligned terms, leading to a fold increase in size for the metadata terms between 2.7 and 20 fold. After fine-tuning PubMedBERT with the QA training data augmented with the enlarged metadata, the model increased its mean Retrieval Precision from 0.277 to 0.866 and its mean Percentile Rank from 0.355 to 0.896. The NeuroEmbed methodology for the creation of electronic catalogues of omics cohorts and samples will foster automated bioinformatic pipelines construction. The NeuroEmbed catalogue of cohorts and samples is available at https://github.com/JoseAdrian3/NeuroEmbed.

arxiv情報

著者 José A. Pardo,Alicia Gómez-Pascual,José T. Palma,Juan A. Botía
発行日 2025-06-16 13:27:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク