Extrapolative Controlled Sequence Generation via Iterative Refinement



– トレーニングで見た範囲を超えた属性値を持つシーケンスを生成する問題、外挿的な制御生成の研究に取り組んでいる。
– 医薬品開発などの自動化設計において重要である。
– proposd Iterative Controlled Extrapolation (ICE)は、シーケンスに局所的な編集を行い、外挿を可能にする手法である。
– 結果は、sentiment analysisなど1つの自然言語タスクと、ACE2安定性とAAVフィットネスなど2つのタンパク質エンジニアリングタスクで、ICEが、簡単ながらも最新の方法よりも優れた結果を示している。


We study the problem of extrapolative controlled generation, i.e., generating sequences with attribute values beyond the range seen in training. This task is of significant importance in automated design, especially drug discovery, where the goal is to design novel proteins that are \textit{better} (e.g., more stable) than existing sequences. Thus, by definition, the target sequences and their attribute values are out of the training distribution, posing challenges to existing methods that aim to directly generate the target sequence. Instead, in this work, we propose Iterative Controlled Extrapolation (ICE) which iteratively makes local edits to a sequence to enable extrapolation. We train the model on synthetically generated sequence pairs that demonstrate small improvement in the attribute value. Results on one natural language task (sentiment analysis) and two protein engineering tasks (ACE2 stability and AAV fitness) show that ICE considerably outperforms state-of-the-art approaches despite its simplicity. Our code and models are available at: https://github.com/vishakhpk/iter-extrapolation.


著者 Vishakh Padmakumar,Richard Yuanzhe Pang,He He,Ankur P. Parikh
発行日 2023-05-01 16:10:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG, q-bio.QM パーマリンク