EvoPrompting: Language Models for Code-Level Neural Architecture Search

要約

コード生成のための言語モデル (LM) の最近の目覚ましい成果を考慮して、進化的ニューラル アーキテクチャ検索 (NAS) アルゴリズムの適応突然変異およびクロスオーバー オペレーターとしての LM の使用を検討します。
NAS は、LM がプロンプトだけで成功するには難しすぎるタスクであることが依然として証明されていますが、進化的プロンプト エンジニアリングとソフト プロンプト チューニングの組み合わせ (EvoPrompting と呼ばれる方法) により、一貫して多様で高性能なモデルが見つかることがわかりました。
まず、EvoPrompting が計算効率の高い MNIST-1D データセットで有効であることを実証します。EvoPrompting は、精度とモデル サイズの点で、人間の専門家によって設計されたプロンプトと単純な少数ショット プロンプトの両方を上回る畳み込みアーキテクチャのバリアントを生成します。
次に、この方法を CLRS アルゴリズム推論ベンチマークでのグラフ ニューラル ネットワークの検索に適用します。ここで、EvoPrompting は、同様のモデル サイズを維持しながら、30 個のアルゴリズム推論タスクのうち 21 個で現在の最先端モデルを上回る新しいアーキテクチャを設計できます。

EvoPrompting は、さまざまな機械学習タスクにわたって正確かつ効率的なニューラル ネットワーク アーキテクチャを設計することに成功していると同時に、ニューラル ネットワーク設計以外の他のタスクにも簡単に適応できる十分な汎用性を備えています。

要約(オリジナル)

Given the recent impressive accomplishments of language models (LMs) for code generation, we explore the use of LMs as adaptive mutation and crossover operators for an evolutionary neural architecture search (NAS) algorithm. While NAS still proves too difficult a task for LMs to succeed at solely through prompting, we find that the combination of evolutionary prompt engineering with soft prompt-tuning, a method we term EvoPrompting, consistently finds diverse and high performing models. We first demonstrate that EvoPrompting is effective on the computationally efficient MNIST-1D dataset, where EvoPrompting produces convolutional architecture variants that outperform both those designed by human experts and naive few-shot prompting in terms of accuracy and model size. We then apply our method to searching for graph neural networks on the CLRS Algorithmic Reasoning Benchmark, where EvoPrompting is able to design novel architectures that outperform current state-of-the-art models on 21 out of 30 algorithmic reasoning tasks while maintaining similar model size. EvoPrompting is successful at designing accurate and efficient neural network architectures across a variety of machine learning tasks, while also being general enough for easy adaptation to other tasks beyond neural network design.

arxiv情報

著者 Angelica Chen,David M. Dohan,David R. So
発行日 2023-11-16 18:02:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.NE パーマリンク