Data-Driven Information Extraction and Enrichment of Molecular Profiling Data for Cancer Cell Lines

要約

研究手段と計算手法の普及に伴い、出版される生物医学文献の数と量は飛躍的に増加しています。
その結果、生物学、医学、臨床研究の分野では、専門家は関連情報を見つけるために大量の科学文書を精査する必要があります。
ただし、このプロセスは人間が行うには非常に面倒で時間がかかります。
したがって、意味のある知識の抽出を促進するには、新しい計算情報の抽出および相関メカニズムが必要です。
この研究では、新しいデータ抽出および探索システムの設計、実装、およびアプリケーションを紹介します。
このシステムは、科学文献からテキストエンティティ間の深い意味関係を抽出して、がん細胞株の領域における既存の構造化された臨床データを強化します。
我々は、ゲノムコピー数変異プロットと、影響を受ける遺伝子などのランク付けされた関連エンティティとの自動リンクを可能にする、新しい公開データ探索ポータルを導入します。
各関係には文献由来の証拠が伴っており、既存の構造化データを出発点として使用して、深くかつ迅速な文献検索が可能になります。
私たちのシステムはウェブ https://cancercelllines.org で公開されています。

要約(オリジナル)

With the proliferation of research means and computational methodologies, published biomedical literature is growing exponentially in numbers and volume. As a consequence, in the fields of biological, medical and clinical research, domain experts have to sift through massive amounts of scientific text to find relevant information. However, this process is extremely tedious and slow to be performed by humans. Hence, novel computational information extraction and correlation mechanisms are required to boost meaningful knowledge extraction. In this work, we present the design, implementation and application of a novel data extraction and exploration system. This system extracts deep semantic relations between textual entities from scientific literature to enrich existing structured clinical data in the domain of cancer cell lines. We introduce a new public data exploration portal, which enables automatic linking of genomic copy number variants plots with ranked, related entities such as affected genes. Each relation is accompanied by literature-derived evidences, allowing for deep, yet rapid, literature search, using existing structured data as a springboard. Our system is publicly available on the web at https://cancercelllines.org

arxiv情報

著者 Ellery Smith,Rahel Paloots,Dimitris Giagkos,Michael Baudis,Kurt Stockinger
発行日 2023-07-03 11:15:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.CL, cs.DB パーマリンク