Extrapolative Controlled Sequence Generation via Iterative Refinement

要約

外挿制御された生成、つまり、トレーニングで見られる範囲を超える属性値を持つシーケンスを生成する問題を研究します。
このタスクは、自動化された設計、特に既存の配列よりも優れた (たとえば、より安定した) 新規タンパク質を設計することを目標とする創薬において非常に重要です。
したがって、定義上、ターゲット シーケンスとその属性値はトレーニング分布から外れており、ターゲット シーケンスを直接生成することを目的とする既存の方法に課題をもたらします。
代わりに、この作業では、外挿を有効にするためにシーケンスにローカル編集を繰り返し行う反復制御外挿 (ICE) を提案します。
属性値のわずかな改善を示す、合成的に生成されたシーケンス ペアでモデルをトレーニングします。
1 つの自然言語タスク (感情分析) と 2 つのタンパク質工学タスク (ACE2 の安定性と AAV 適合性) の結果は、ICE がその単純さにもかかわらず、最先端のアプローチよりもかなり優れていることを示しています。
私たちのコードとモデルは、https://github.com/vishakhpk/iter-extrapolation で入手できます。

要約(オリジナル)

We study the problem of extrapolative controlled generation, i.e., generating sequences with attribute values beyond the range seen in training. This task is of significant importance in automated design, especially drug discovery, where the goal is to design novel proteins that are \textit{better} (e.g., more stable) than existing sequences. Thus, by definition, the target sequences and their attribute values are out of the training distribution, posing challenges to existing methods that aim to directly generate the target sequence. Instead, in this work, we propose Iterative Controlled Extrapolation (ICE) which iteratively makes local edits to a sequence to enable extrapolation. We train the model on synthetically generated sequence pairs that demonstrate small improvement in the attribute value. Results on one natural language task (sentiment analysis) and two protein engineering tasks (ACE2 stability and AAV fitness) show that ICE considerably outperforms state-of-the-art approaches despite its simplicity. Our code and models are available at: https://github.com/vishakhpk/iter-extrapolation.

arxiv情報

著者 Vishakh Padmakumar,Richard Yuanzhe Pang,He He,Ankur P. Parikh
発行日 2023-03-08 13:21:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, q-bio.QM パーマリンク