Metric Similarity and Manifold Learning of Circular Dichroism Spectra of Proteins

要約

SP175データベースからの球状タンパク質の循環二色性分析の機械学習分析を提示します。最適なトランスポートベースの$ 1 $ -WASSERSTEIN距離$ \ MathCal {W} _1 $(注文$ p = 1 $)およびマニフォールド学習アルゴリズム$ T $ -SNEを使用します。
我々の結果は、$ \ mathcal {w} _1 $が、ノイズに堅牢性を示しながら、ユークリッドとマンハッタンの両方の指標と一致していることを示しています。
一方、$ t $ -SNEは、高次元データの意味のある構造を明らかにします。
$ t $ -SNE埋め込みのクラスタリングは、主に異なる二次構造組成を持つタンパク質によって決定されます。1つのクラスターには主に$ \ beta $ richタンパク質が含まれていますが、もう1つは主に$ \ alpha/\ beta $と$ \ alpha $ helicalの内容を含むタンパク質です。

要約(オリジナル)

We present a machine learning analysis of circular dichroism spectra of globular proteins from the SP175 database, using the optimal transport-based $1$-Wasserstein distance $\mathcal{W}_1$ (with order $p=1$) and the manifold learning algorithm $t$-SNE. Our results demonstrate that $\mathcal{W}_1$ is consistent with both Euclidean and Manhattan metrics while exhibiting robustness to noise. On the other hand, $t$-SNE uncovers meaningful structure in the high-dimensional data. The clustering in the $t$-SNE embedding is primarily determined by proteins with distinct secondary structure compositions: one cluster predominantly contains $\beta$-rich proteins, while the other consists mainly of proteins with mixed $\alpha/\beta$ and $\alpha$-helical content.

arxiv情報

著者 Gionni Marchetti
発行日 2025-05-13 14:15:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.soc-ph パーマリンク