Unifying Sequences, Structures, and Descriptions for Any-to-Any Protein Generation with the Large Multimodal Model HelixProtX

要約

タンパク質は生物学的システムの基本的な構成要素であり、配列、構造、テキスト記述などのさまざまな様式を通じて表現できます。
タンパク質研究のための深層学習と科学大言語モデル (LLM) の進歩にも関わらず、現在の方法論は主に限られた特殊なタスク、つまりあるタンパク質のモダリティを別のタンパク質のモダリティから予測することに主に焦点を当てています。
これらのアプローチでは、多峰性のタンパク質データの理解と生成が制限されます。
対照的に、大規模なマルチモーダル モデルは、テキスト、画像、ビデオなどの Any-to-Any コンテンツを生成する潜在的な機能を実証しており、さまざまなドメインにわたるユーザー インタラクションを強化します。
これらのマルチモーダル モデル テクノロジーをタンパク質研究に統合すると、タンパク質の研究方法が変わる可能性があり、大きな可能性が期待できます。
この目的を達成するために、大規模なマルチモーダル モデルに基づいて構築されたシステムである HelixProtX を導入し、あらゆるタンパク質モダリティ生成をサポートすることでタンパク質研究に包括的なソリューションを提供することを目指しています。
既存の方法とは異なり、任意の入力タンパク質モダリティを任意の目的のタンパク質モダリティに変換できます。
実験結果は、アミノ酸配列から機能記述を生成するだけでなく、テキスト記述からタンパク質配列や構造を設計するなどの重要なタスクの実行においても、HelixProtX の高度な機能を裏付けるものです。
予備的な調査結果は、HelixProtX がタンパク質関連のさまざまなタスクにわたって優れた精度を一貫して達成し、既存の最先端モデルを上回るパフォーマンスを示すことを示しています。
HelixProtX は、マルチモーダルな大規模モデルをタンパク質研究に統合することにより、タンパク質生物学を理解するための新しい道を開き、それによって科学的発見を加速することを約束します。

要約(オリジナル)

Proteins are fundamental components of biological systems and can be represented through various modalities, including sequences, structures, and textual descriptions. Despite the advances in deep learning and scientific large language models (LLMs) for protein research, current methodologies predominantly focus on limited specialized tasks — often predicting one protein modality from another. These approaches restrict the understanding and generation of multimodal protein data. In contrast, large multimodal models have demonstrated potential capabilities in generating any-to-any content like text, images, and videos, thus enriching user interactions across various domains. Integrating these multimodal model technologies into protein research offers significant promise by potentially transforming how proteins are studied. To this end, we introduce HelixProtX, a system built upon the large multimodal model, aiming to offer a comprehensive solution to protein research by supporting any-to-any protein modality generation. Unlike existing methods, it allows for the transformation of any input protein modality into any desired protein modality. The experimental results affirm the advanced capabilities of HelixProtX, not only in generating functional descriptions from amino acid sequences but also in executing critical tasks such as designing protein sequences and structures from textual descriptions. Preliminary findings indicate that HelixProtX consistently achieves superior accuracy across a range of protein-related tasks, outperforming existing state-of-the-art models. By integrating multimodal large models into protein research, HelixProtX opens new avenues for understanding protein biology, thereby promising to accelerate scientific discovery.

arxiv情報

著者 Zhiyuan Chen,Tianhao Chen,Chenggang Xie,Yang Xue,Xiaonan Zhang,Jingbo Zhou,Xiaomin Fang
発行日 2024-07-12 14:03:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.BM パーマリンク