要約
大規模な Transformer モデルは、いわゆるインコンテキスト学習アルゴリズムを多数実装できます。
これらには、勾配降下法、分類、シーケンスの補完、変換、改善が含まれます。
この研究では、ブラックボックス最適化のタスクに明示的に遭遇したことのない大規模言語モデル (LLM) が原理的に進化的最適化アルゴリズムを実装できるかどうかを調査します。
これまでの研究は言語ベースのタスク仕様のみに焦点を当てていましたが、私たちは前進して、ブラック ボックス最適化への LLM のゼロショット アプリケーションに焦点を当てます。
離散化された母集団メンバーの最下位から最上位へのソートと平均統計の改善を提案するために LLM に問い合わせる、つまり一種のブラック ボックス組換え操作を実行する、という新しいプロンプト戦略を導入します。
経験的に、私たちのセットアップでは、ユーザーが「EvoLLM」と呼ぶ LLM ベースの進化戦略を取得できることがわかりました。これは、合成 BBOB 関数や小さな神経進化タスクでのランダム検索やガウス山登りなどのベースライン アルゴリズムを確実に上回ります。
したがって、LLM は「プラグイン」コンテキスト内組み換え演算子として機能できます。
LLM のモデル サイズ、プロンプト戦略、およびコンテキスト構築に関するいくつかの比較研究を提供します。
最後に、以前に収集された教師の最適化軌跡に基づいた命令の微調整を通じて教師アルゴリズム情報を提供することで、EvoLLM のパフォーマンスを柔軟に改善できることを示します。
要約(オリジナル)
Large Transformer models are capable of implementing a plethora of so-called in-context learning algorithms. These include gradient descent, classification, sequence completion, transformation, and improvement. In this work, we investigate whether large language models (LLMs), which never explicitly encountered the task of black-box optimization, are in principle capable of implementing evolutionary optimization algorithms. While previous works have solely focused on language-based task specification, we move forward and focus on the zero-shot application of LLMs to black-box optimization. We introduce a novel prompting strategy, consisting of least-to-most sorting of discretized population members and querying the LLM to propose an improvement to the mean statistic, i.e. perform a type of black-box recombination operation. Empirically, we find that our setup allows the user to obtain an LLM-based evolution strategy, which we call `EvoLLM’, that robustly outperforms baseline algorithms such as random search and Gaussian Hill Climbing on synthetic BBOB functions as well as small neuroevolution tasks. Hence, LLMs can act as `plug-in’ in-context recombination operators. We provide several comparative studies of the LLM’s model size, prompt strategy, and context construction. Finally, we show that one can flexibly improve EvoLLM’s performance by providing teacher algorithm information via instruction fine-tuning on previously collected teacher optimization trajectories.
arxiv情報
著者 | Robert Tjarko Lange,Yingtao Tian,Yujin Tang |
発行日 | 2024-02-28 15:02:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google