Extrapolative Controlled Sequence Generation via Iterative Refinement

要約

私たちは外挿制御生成の問題、つまりトレーニングで見られる範囲を超えた属性値を持つシーケンスを生成する問題を研究します。
このタスクは、自動設計、特に既存の配列よりも \textit{優れた} (例、より安定した) 新規タンパク質を設計することが目標である創薬において非常に重要です。
したがって、定義上、ターゲット シーケンスとその属性値はトレーニング分布の外にあり、ターゲット シーケンスを直接生成することを目的とした既存の方法に課題をもたらします。
代わりに、この研究では、シーケンスにローカル編集を繰り返し行って外挿を可能にする Iterative Controlled Extrapolation (ICE) を提案します。
属性値のわずかな改善を示す、合成的に生成されたシーケンス ペアでモデルをトレーニングします。
1 つの自然言語タスク (感情分析) と 2 つのタンパク質工学タスク (ACE2 安定性と AAV フィットネス) の結果は、ICE がそのシンプルさにも関わらず最先端のアプローチを大幅に上回るパフォーマンスを示していることを示しています。
私たちのコードとモデルは、https://github.com/vishakhpk/iter-extrapolation で入手できます。

要約(オリジナル)

We study the problem of extrapolative controlled generation, i.e., generating sequences with attribute values beyond the range seen in training. This task is of significant importance in automated design, especially drug discovery, where the goal is to design novel proteins that are \textit{better} (e.g., more stable) than existing sequences. Thus, by definition, the target sequences and their attribute values are out of the training distribution, posing challenges to existing methods that aim to directly generate the target sequence. Instead, in this work, we propose Iterative Controlled Extrapolation (ICE) which iteratively makes local edits to a sequence to enable extrapolation. We train the model on synthetically generated sequence pairs that demonstrate small improvement in the attribute value. Results on one natural language task (sentiment analysis) and two protein engineering tasks (ACE2 stability and AAV fitness) show that ICE considerably outperforms state-of-the-art approaches despite its simplicity. Our code and models are available at: https://github.com/vishakhpk/iter-extrapolation.

arxiv情報

著者 Vishakh Padmakumar,Richard Yuanzhe Pang,He He,Ankur P. Parikh
発行日 2023-06-07 15:34:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, q-bio.QM パーマリンク