要約
現在の AI 支援タンパク質設計では、主にタンパク質の配列情報と構造情報が利用されています。
その一方で、タンパク質の高レベルの機能を説明するテキスト形式で人間によって精選された膨大な知識が存在します。
しかし、そのようなテキストデータの組み込みがタンパク質設計タスクに役立つかどうかはまだ調査されていません。
このギャップを埋めるために、タンパク質設計のテキスト記述を活用するマルチモーダル フレームワークである ProteinDT を提案します。
ProteinDT は、2 つのモダリティの表現を調整する ProteinCLAP、テキスト モダリティからタンパク質表現を生成するファシリテーター、および表現からタンパク質配列を作成するデコーダという 3 つの後続のステップで構成されます。
ProteinDT をトレーニングするために、441K のテキストとタンパク質のペアを含む大規模なデータセット、SwissProtCLAP を構築します。
私たちは、次の 3 つの困難なタスクに対する ProteinDT の有効性を定量的に検証します。(1) テキストガイドによるタンパク質生成の精度が 90% 以上。
(2) 12 個のゼロショットのテキストガイドによるタンパク質編集タスクでの最高ヒット率。
(3) 6 つのタンパク質特性予測ベンチマークのうち 4 つで優れたパフォーマンス。
要約(オリジナル)
Current AI-assisted protein design mainly utilizes protein sequential and structural information. Meanwhile, there exists tremendous knowledge curated by humans in the text format describing proteins’ high-level functionalities. Yet, whether the incorporation of such text data can help protein design tasks has not been explored. To bridge this gap, we propose ProteinDT, a multi-modal framework that leverages textual descriptions for protein design. ProteinDT consists of three subsequent steps: ProteinCLAP which aligns the representation of two modalities, a facilitator that generates the protein representation from the text modality, and a decoder that creates the protein sequences from the representation. To train ProteinDT, we construct a large dataset, SwissProtCLAP, with 441K text and protein pairs. We quantitatively verify the effectiveness of ProteinDT on three challenging tasks: (1) over 90\% accuracy for text-guided protein generation; (2) best hit ratio on 12 zero-shot text-guided protein editing tasks; (3) superior performance on four out of six protein property prediction benchmarks.
arxiv情報
著者 | Shengchao Liu,Yanjing Li,Zhuoxinran Li,Anthony Gitter,Yutao Zhu,Jiarui Lu,Zhao Xu,Weili Nie,Arvind Ramanathan,Chaowei Xiao,Jian Tang,Hongyu Guo,Anima Anandkumar |
発行日 | 2024-08-12 16:05:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google