Data-Driven Information Extraction and Enrichment of Molecular Profiling Data for Cancer Cell Lines

要約

研究手段と計算手法の普及に伴い、出版される生物医学文献の数と量は飛躍的に増加しています。
がん細胞株は、生物学および医学研究において頻繁に使用されるモデルであり、現在、細胞機構の研究から医薬品開発まで幅広い目的に応用されており、豊富な関連データや出版物が出版されています。
大量のテキストを精査して目的の細胞株に関する関連情報を収集するのは、人間が行うと退屈で非常に時間がかかります。
したがって、意味のある知識の抽出を促進するには、新しい計算情報の抽出および相関メカニズムが必要です。
この研究では、新しいデータ抽出および探索システムの設計、実装、およびアプリケーションを紹介します。
このシステムは、科学文献からテキストエンティティ間の深い意味関係を抽出して、がん細胞株の領域における既存の構造化された臨床データを強化します。
我々は、ゲノムコピー数変異プロットと、影響を受ける遺伝子などのランク付けされた関連エンティティとの自動リンクを可能にする、新しい公開データ探索ポータルを導入します。
各関係には文献由来の証拠が伴っており、既存の構造化データを出発点として使用して、深くかつ迅速な文献検索が可能になります。
私たちのシステムはウェブ https://cancercelllines.org で公開されています。

要約(オリジナル)

With the proliferation of research means and computational methodologies, published biomedical literature is growing exponentially in numbers and volume. Cancer cell lines are frequently used models in biological and medical research that are currently applied for a wide range of purposes, from studies of cellular mechanisms to drug development, which has led to a wealth of related data and publications. Sifting through large quantities of text to gather relevant information on the cell lines of interest is tedious and extremely slow when performed by humans. Hence, novel computational information extraction and correlation mechanisms are required to boost meaningful knowledge extraction. In this work, we present the design, implementation and application of a novel data extraction and exploration system. This system extracts deep semantic relations between textual entities from scientific literature to enrich existing structured clinical data in the domain of cancer cell lines. We introduce a new public data exploration portal, which enables automatic linking of genomic copy number variants plots with ranked, related entities such as affected genes. Each relation is accompanied by literature-derived evidences, allowing for deep, yet rapid, literature search, using existing structured data as a springboard. Our system is publicly available on the web at https://cancercelllines.org

arxiv情報

著者 Ellery Smith,Rahel Paloots,Dimitris Giagkos,Michael Baudis,Kurt Stockinger
発行日 2024-02-12 11:43:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.CL, cs.DB パーマリンク