PROTECT: Protein circadian time prediction using unsupervised learning

要約

概日リズムは人間と動物の生理機能と行動を調節します。
これらのリズムの理解と転写レベルでの概日位相の予測は進歩しているにもかかわらず、プロテオミクスデータから概日位相を予測することは依然としてとらえどころのないままです。
この課題は、プロテオミクス データセットの時間ラベルが不足していることが主な原因であり、多くの場合、サンプル サイズが小さく、次元が高く、ノイズが大きいという特徴があります。
さらに、トランスクリプトーム データから概日位相を予測する既存の方法は、通常、既知のリズム遺伝子の事前知識に依存しているため、プロテオミクス データセットには適していません。
このギャップに対処するために、時間ラベルやタンパク質や遺伝子の事前知識を必要とせずに、プロテオミクスデータから概日サンプルフェーズを予測する教師なし深層学習技術を使用した新しい計算手法を開発しました。
私たちのモデルには、堅牢な概日位相予測用に最適化された 2 段階のトレーニング プロセスが含まれます。最初の一度に 1 層ずつの貪欲な事前トレーニングでは、有益な初期パラメーターが生成され、その後微調整が続きます。
微調整中、特殊な損失関数がモデルを導き、タンパク質発現レベルを概日パターンに合わせて調整し、データ内の基礎となるリズム構造を正確に捕捉できるようにします。
時間ラベル付きプロテオミクスデータとラベルなしプロテオミクスデータの両方でメソッドをテストしました。
ラベル付きデータについては、予測を既知の時間ラベルと比較して高い精度を達成しましたが、死後の脳領域や尿サンプルを含むラベルなしの人間のデータセットについては、概日の乱れを調査しました。
注目すべきことに、我々の分析では、これらのサンプル全体でアルツハイマー病患者と対照被験者の間のリズムタンパク質の乱れが特定されました。

要約(オリジナル)

Circadian rhythms regulate the physiology and behavior of humans and animals. Despite advancements in understanding these rhythms and predicting circadian phases at the transcriptional level, predicting circadian phases from proteomic data remains elusive. This challenge is largely due to the scarcity of time labels in proteomic datasets, which are often characterized by small sample sizes, high dimensionality, and significant noise. Furthermore, existing methods for predicting circadian phases from transcriptomic data typically rely on prior knowledge of known rhythmic genes, making them unsuitable for proteomic datasets. To address this gap, we developed a novel computational method using unsupervised deep learning techniques to predict circadian sample phases from proteomic data without requiring time labels or prior knowledge of proteins or genes. Our model involves a two-stage training process optimized for robust circadian phase prediction: an initial greedy one-layer-at-a-time pre-training which generates informative initial parameters followed by fine-tuning. During fine-tuning, a specialized loss function guides the model to align protein expression levels with circadian patterns, enabling it to accurately capture the underlying rhythmic structure within the data. We tested our method on both time-labeled and unlabeled proteomic data. For labeled data, we compared our predictions to the known time labels, achieving high accuracy, while for unlabeled human datasets, including postmortem brain regions and urine samples, we explored circadian disruptions. Notably, our analysis identified disruptions in rhythmic proteins between Alzheimer’s disease and control subjects across these samples.

arxiv情報

著者 Aram Ansary Ogholbake,Qiang Cheng
発行日 2025-01-13 15:21:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク