Integrating Protein Sequence and Expression Level to Analysis Molecular Characterization of Breast Cancer Subtypes

要約

乳がんの複雑さと多様性は、その進行を理解し、効果的な治療を導く上で大きな課題となっています。
この研究は、タンパク質配列データと発現レベルを統合して、乳がんのサブタイプの分子的特徴付けを改善し、臨床転帰を予測することを目的としています。
タンパク質配列用に設計された言語モデルである ProtGPT2 を使用して、タンパク質配列の機能的および構造的特性を捕捉する埋め込みを生成しました。
これらの埋め込みはタンパク質発現レベルと統合されて、豊富な生物学的表現を形成し、クラスタリングにはアンサンブル K 平均法、分類には XGBoost などの機械学習手法を使用して分析されました。
私たちのアプローチにより、患者を生物学的に異なるグループにクラスタリングすることに成功し、生存率やバイオマーカー状態などの臨床転帰を正確に予測できるようになり、特に生存率の F1 スコア 0.88、バイオマーカー状態予測率 0.87 という高いパフォーマンス指標を達成しました。
特徴の重要性の分析により、ホルモン受容体とヒト上皮成長因子受容体 2 (HER2) の発現に関連する KMT2C、GCN1、CLASP2 などの重要なタンパク質が明らかになり、それぞれ腫瘍の進行と患者の転帰に役割を果たしています。
さらに、タンパク質間相互作用ネットワークと相関分析により、乳がんのサブタイプの挙動に影響を与える可能性があるタンパク質の相互依存性が明らかになりました。
これらの発見は、タンパク質の配列と発現のデータを統合することで腫瘍生物学への貴重な洞察が得られ、乳がん治療における個別化された治療戦略を強化する大きな可能性があることを示唆しています。

要約(オリジナル)

Breast cancer’s complexity and variability pose significant challenges in understanding its progression and guiding effective treatment. This study aims to integrate protein sequence data with expression levels to improve the molecular characterization of breast cancer subtypes and predict clinical outcomes. Using ProtGPT2, a language model designed for protein sequences, we generated embeddings that capture the functional and structural properties of proteins sequence. These embeddings were integrated with protein expression level to form enriched biological representations, which were analyzed using machine learning methods like ensemble K-means for clustering and XGBoost for classification. Our approach enabled successful clustering of patients into biologically distinct groups and accurately predicted clinical outcomes such as survival and biomarkers status, achieving high performance metrics, notably an F1 score of 0.88 for survival and 0.87 for biomarkers status prediction. Analysis of feature importance highlighted key proteins like KMT2C, GCN1, and CLASP2, linked to hormone receptor and Human Epidermal Growth Factor Receptor 2 (HER2) expression, which play a role in tumor progression and patient outcomes, respectively. Furthermore, protein-protein interaction networks and correlation analyses revealed the interdependence of proteins that may influence breast cancer subtype behaviors. These findings suggest that integrating protein sequence and expression data provides valuable insights into tumor biology and has significant potential to enhance personalized treatment strategies in breast cancer care.

arxiv情報

著者 Hossein Sholehrasa
発行日 2024-10-02 17:05:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM パーマリンク