Reinforcement Learning for Sequence Design Leveraging Protein Language Models

要約

アミノ酸配列によって決定されるタンパク質配列設計は、創薬におけるタンパク質工学的問題に不可欠である。これまでのアプローチでは、タンパク質設計のために進化戦略やモンテカルロ法に頼ってきたが、未知の配列に一般化するために、組み合わせ探索空間の構造を利用できないことが多い。広い探索空間上の離散的なブラックボックス最適化の文脈では、強化学習を用いて新規配列を生成する変異ポリシーを学習することは魅力的である。大規模なタンパク質配列コーパスで学習されたタンパク質言語モデル(PLM)の最近の進歩は、生物学的妥当性(TMスコアなど)に従ってタンパク質をスコアリングすることにより、この問題を解決する可能性を提供する。本研究では、新しい配列を生成するための報酬関数としてPLMを使用することを提案する。しかし、PLMはサイズが大きいため、クエリに計算コストがかかることがある。このため、我々は、突然変異ポリシーを学習しながら、定期的に微調整される、より小さな代理モデルからのスコアに対して最適化を行うことができる代替パラダイムを提案する。我々は、RLベースのアプローチをベンチマークするために、様々な配列長で広範な実験を行い、タンパク質の生物学的妥当性と多様性に沿った包括的な評価を提供する。実験の結果、提案された配列は高い多様性スコアとともに良好な評価を受け、RLが生物学的配列設計の有力な候補であることが示された。最後に、この分野のさらなる研究に拍車をかけるために、報酬モデルを他のPLMに置き換えるサポートとともに、ほとんどのRLトレーニングループに簡単に統合できるモジュール式のオープンソース実装を提供する。全ての実験のコードは補足資料にある。

要約(オリジナル)

Protein sequence design, determined by amino acid sequences, are essential to protein engineering problems in drug discovery. Prior approaches have resorted to evolutionary strategies or Monte-Carlo methods for protein design, but often fail to exploit the structure of the combinatorial search space, to generalize to unseen sequences. In the context of discrete black box optimization over large search spaces, learning a mutation policy to generate novel sequences with reinforcement learning is appealing. Recent advances in protein language models (PLMs) trained on large corpora of protein sequences offer a potential solution to this problem by scoring proteins according to their biological plausibility (such as the TM-score). In this work, we propose to use PLMs as a reward function to generate new sequences. Yet the PLM can be computationally expensive to query due to its large size. To this end, we propose an alternative paradigm where optimization can be performed on scores from a smaller proxy model that is periodically finetuned, jointly while learning the mutation policy. We perform extensive experiments on various sequence lengths to benchmark RL-based approaches, and provide comprehensive evaluations along biological plausibility and diversity of the protein. Our experimental results include favorable evaluations of the proposed sequences, along with high diversity scores, demonstrating that RL is a strong candidate for biological sequence design. Finally, we provide a modular open source implementation can be easily integrated in most RL training loops, with support for replacing the reward model with other PLMs, to spur further research in this domain. The code for all experiments is provided in the supplementary material.

arxiv情報

著者 Jithendaraa Subramanian,Shivakanth Sujit,Niloy Irtisam,Umong Sain,Derek Nowrouzezahrai,Samira Ebrahimi Kahou,Riashat Islam
発行日 2024-07-03 14:31:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, q-bio.BM パーマリンク