OneProt: Towards Multi-Modal Protein Foundation Models

要約

最近の AI の進歩により、マルチモーダル システムが多様な情報空間をモデル化し、変換できるようになりました。
テキストと視覚を超えて、構造、配列、アラインメント、結合部位のデータを統合するタンパク質用のマルチモーダル AI である OneProt を紹介します。
OneProt は、ImageBind フレームワークを使用して、タンパク質配列に沿ってモダリティ エンコーダーの潜在空間を位置合わせします。
検索タスクで強力なパフォーマンスを示し、金属イオン結合分類、遺伝子オントロジーのアノテーション、酵素機能予測などのさまざまな下流タスクで最先端の手法を上回ります。
この研究により、タンパク質モデルのマルチモーダル機能が拡張され、創薬、生体触媒反応計画、タンパク質工学への応用への道が開かれます。

要約(オリジナル)

Recent AI advances have enabled multi-modal systems to model and translate diverse information spaces. Extending beyond text and vision, we introduce OneProt, a multi-modal AI for proteins that integrates structural, sequence, alignment, and binding site data. Using the ImageBind framework, OneProt aligns the latent spaces of modality encoders along protein sequences. It demonstrates strong performance in retrieval tasks and surpasses state-of-the-art methods in various downstream tasks, including metal ion binding classification, gene-ontology annotation, and enzyme function prediction. This work expands multi-modal capabilities in protein models, paving the way for applications in drug discovery, biocatalytic reaction planning, and protein engineering.

arxiv情報

著者 Klemens Flöge,Srisruthi Udayakumar,Johanna Sommer,Marie Piraud,Stefan Kesselheim,Vincent Fortuin,Stephan Günneman,Karel J van der Weg,Holger Gohlke,Alina Bazarova,Erinc Merdivan
発行日 2024-11-07 16:54:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM パーマリンク