要約
フィットネス予測、タンパク質設計、構造モデリング、タンパク質間相互作用などの幅広いタンパク質モデリングタスクには、相同タンパク質配列の取得が不可欠です。
従来のワークフローは、複数のシーケンスアラインメント(MSA)を介して最初にホモログを取得する2段階のプロセスに依存しており、次にこれらのアライメントの1つ以上でモデルをトレーニングします。
ただし、MSAベースの検索は計算上高価であり、非常に多様なシーケンスまたは複雑な挿入と削除パターンに苦労しており、ダウンストリームモデリングの目的とは無関係に動作します。
ターゲットタスクのトレーニングを同時にトレーニングしながら、関連するホモログを取得することを学ぶエンドツーエンドの微分フレームワークであるProtrieverを紹介します。
プロテインフィットネス予測に適用すると、Protrieverは、MSAベースのホモログ検索に依存しているシーケンスベースのモデルと比較して、最先端のパフォーマンスを実現し、効率的なベクトル検索を通じて2桁高速になります。
Protrieverは、アーキテクチャとタスクに依存していないものであり、推論時間に異なる検索戦略とタンパク質データベースに柔軟に適応することができます。
要約(オリジナル)
Retrieving homologous protein sequences is essential for a broad range of protein modeling tasks such as fitness prediction, protein design, structure modeling, and protein-protein interactions. Traditional workflows have relied on a two-step process: first retrieving homologs via Multiple Sequence Alignments (MSA), then training models on one or more of these alignments. However, MSA-based retrieval is computationally expensive, struggles with highly divergent sequences or complex insertions & deletions patterns, and operates independently of the downstream modeling objective. We introduce Protriever, an end-to-end differentiable framework that learns to retrieve relevant homologs while simultaneously training for the target task. When applied to protein fitness prediction, Protriever achieves state-of-the-art performance compared to sequence-based models that rely on MSA-based homolog retrieval, while being two orders of magnitude faster through efficient vector search. Protriever is both architecture- and task-agnostic, and can flexibly adapt to different retrieval strategies and protein databases at inference time — offering a scalable alternative to alignment-centric approaches.
arxiv情報
著者 | Ruben Weitzman,Peter Mørch Groth,Lood Van Niekerk,Aoi Otani,Yarin Gal,Debora Marks,Pascal Notin |
発行日 | 2025-06-10 16:24:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google