要約
ウイルス様粒子(VLP)は、免疫トリガー特性のためにワクチンの発達に役立ちます。
それらの化学量論を理解する、VLPを形成するタンパク質サブユニットの数は、ワクチンの最適化にとって重要です。
しかし、化学量論を決定するための現在の実験方法は時間がかかり、高度に精製されたタンパク質が必要です。
タンパク質の化学量論クラスを効率的に分類するために、新しいデータセットをキュレートし、解釈可能なデータ駆動型のパイプラインをレバレバリングする線形機械学習モデルを提案します。
また、モデルのパフォーマンスと解釈可能性に対する機能エンコーディングの影響、および分類に影響を与える主要なタンパク質シーケンス機能を特定する方法についても調査します。
パイプラインの評価は、VLPアセンブリに影響を与える可能性のあるタンパク質特徴を明らかにしながら、化学量論を分類できることを示しています。
この作業で使用されているデータとコードは、https://github.com/shef-are/stoicimlで公開されています。
要約(オリジナル)
Virus-like particles (VLPs) are valuable for vaccine development due to their immune-triggering properties. Understanding their stoichiometry, the number of protein subunits to form a VLP, is critical for vaccine optimisation. However, current experimental methods to determine stoichiometry are time-consuming and require highly purified proteins. To efficiently classify stoichiometry classes in proteins, we curate a new dataset and propose an interpretable, data-driven pipeline leveraging linear machine learning models. We also explore the impact of feature encoding on model performance and interpretability, as well as methods to identify key protein sequence features influencing classification. The evaluation of our pipeline demonstrates that it can classify stoichiometry while revealing protein features that possibly influence VLP assembly. The data and code used in this work are publicly available at https://github.com/Shef-AIRE/StoicIML.
arxiv情報
著者 | Jiayang Zhang,Xianyuan Liu,Wei Wu,Sina Tabakhi,Wenrui Fan,Shuo Zhou,Kang Lan Tee,Tuck Seng Wong,Haiping Lu |
発行日 | 2025-02-17 17:16:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google