要約
大規模言語モデル (LLM) は、最近、タンパク質工学や分子設計などのさまざまな生物学的タスクにおいて大きな可能性を示しています。
これらのタスクには通常、ブラックボックスの離散シーケンスの最適化が含まれます。この場合の課題は、生物学的に実行可能であるだけでなく、きめの細かい制約を遵守するシーケンスを生成することにあります。
しかし、LLM は、特に候補解の検証にコストと時間がかかる生物学的状況において、このような制約に苦戦することがよくあります。
この研究では、Language Model Optimization with Margin Expectation (LLOME) と呼ばれる方法論を通じて、高度に制約されたバイレベル オプティマイザーとして LLM を採用する可能性を探ります。
このアプローチは、オフラインとオンラインの両方の最適化を組み合わせ、限定されたオラクル評価を利用して、LLM によって生成されたシーケンスを繰り返し強化します。
さらに、報酬分布と参照分布の間をスムーズに補間するように LLM をトレーニングする、新しいトレーニング目標であるマージン整合期待 (MargE) を提案します。
最後に、実際の生物物理学的問題と強い幾何学的類似性を持ち、時間のかかる実験室での検証を行わずに LLM オプティマイザーの迅速な評価を可能にする合成テスト スイートを紹介します。
私たちの調査結果は、遺伝的アルゴリズムのベースラインと比較して、LLM はテスト関数の評価が少なくて済みながら、大幅に低いリグレス解を達成できることを明らかにしています。
ただし、LLM は中程度の誤ったキャリブレーションを示し、ジェネレーターの崩壊の影響を受けやすく、明示的なグラウンド トゥルースの報酬が利用できない場合には最適な解決策を見つけるのが難しいことも観察されています。
要約(オリジナル)
Large language models (LLMs) have recently shown significant potential in various biological tasks such as protein engineering and molecule design. These tasks typically involve black-box discrete sequence optimization, where the challenge lies in generating sequences that are not only biologically feasible but also adhere to hard fine-grained constraints. However, LLMs often struggle with such constraints, especially in biological contexts where verifying candidate solutions is costly and time-consuming. In this study, we explore the possibility of employing LLMs as highly-constrained bilevel optimizers through a methodology we refer to as Language Model Optimization with Margin Expectation (LLOME). This approach combines both offline and online optimization, utilizing limited oracle evaluations to iteratively enhance the sequences generated by the LLM. We additionally propose a novel training objective — Margin-Aligned Expectation (MargE) — that trains the LLM to smoothly interpolate between the reward and reference distributions. Lastly, we introduce a synthetic test suite that bears strong geometric similarity to real biophysical problems and enables rapid evaluation of LLM optimizers without time-consuming lab validation. Our findings reveal that, in comparison to genetic algorithm baselines, LLMs achieve significantly lower regret solutions while requiring fewer test function evaluations. However, we also observe that LLMs exhibit moderate miscalibration, are susceptible to generator collapse, and have difficulty finding the optimal solution when no explicit ground truth rewards are available.
arxiv情報
著者 | Angelica Chen,Samuel D. Stanton,Robert G. Alberstein,Andrew M. Watkins,Richard Bonneau,Vladimir Gligorijevi,Kyunghyun Cho,Nathan C. Frey |
発行日 | 2024-10-29 17:45:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google