Elucidating the Design Space of Multimodal Protein Language Models

要約

マルチモーダルタンパク質言語モデル(PLMS)は、シーケンスとトークンベースの構造情報を統合し、タンパク質モデリング、生成、および設計の強力な基盤として機能します。
ただし、3D構造を離散トークンに象徴することに依存すると、細粒の構造の詳細と相関に関する忠実度が大幅に失われます。
この論文では、マルチモーダルPLMSの設計スペースを体系的に解明して、制限を克服します。
トークン化の損失を特定し、PLMSによる主要なボトルネックとしての不正確な構造トークン予測を特定します。
これらに対処するために、提案された設計スペースは、生成モデリングの改善、構造認識アーキテクチャ、および表現学習、およびデータ調査をカバーしています。
私たちの進歩は、細かい粒度の監督に近づき、トークンベースのマルチモーダルPLMが堅牢な構造モデリングを実現できることを示しています。
効果的な設計方法は、PDBテストセットでRMSDを5.52から2.36に減らし、3Bベースラインを上回り、特殊な折りたたみモデルと同等に削減することにより、構造生成の多様性、特に650mモデルの折りたたみ能力を劇的に改善します。

要約(オリジナル)

Multimodal protein language models (PLMs) integrate sequence and token-based structural information, serving as a powerful foundation for protein modeling, generation, and design. However, the reliance on tokenizing 3D structures into discrete tokens causes substantial loss of fidelity about fine-grained structural details and correlations. In this paper, we systematically elucidate the design space of multimodal PLMs to overcome their limitations. We identify tokenization loss and inaccurate structure token predictions by the PLMs as major bottlenecks. To address these, our proposed design space covers improved generative modeling, structure-aware architectures and representation learning, and data exploration. Our advancements approach finer-grained supervision, demonstrating that token-based multimodal PLMs can achieve robust structural modeling. The effective design methods dramatically improve the structure generation diversity, and notably, folding abilities of our 650M model by reducing the RMSD from 5.52 to 2.36 on PDB testset, even outperforming 3B baselines and on par with the specialized folding models.

arxiv情報

著者 Cheng-Yen,Hsieh,Xinyou Wang,Daiheng Zhang,Dongyu Xue,Fei Ye,Shujian Huang,Zaixiang Zheng,Quanquan Gu
発行日 2025-04-15 17:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.QM パーマリンク