Localized Zeroth-Order Prompt Optimization

要約

自然言語の理解と生成における大規模言語モデル (LLM) の有効性は、ブラックボックス LLM の力を活用するプロンプトベースの手法の開発に対する幅広い関心を引き起こしています。
既存の方法論では、通常、全体的な最適化を見つけるために全体的な最適化が優先されますが、特定のタスクではパフォーマンスが低下します。
したがって、これは、迅速な最適化において全体的な最適値を見つける必要性を再考する動機になります。
これに答えるために、私たちは即時最適化に関する徹底的な実証研究を実施し、2 つの主要な洞察を導き出しました。
大域的最適化の希少性とは対照的に、局所的最適化は通常広く普及しており、よく実行されており、効率的な即時最適化にとってはより価値のあるものとなります (Insight I)。
プロンプトの生成と表現の両方をカバーする入力ドメインの選択は、良好なパフォーマンスの局所最適化 (Insight II) の特定に影響します。
これらの洞察に触発されて、我々は、局所的ゼロ次プロンプト最適化 (ZOPO) という新しいアルゴリズムを提案します。これは、ニューラル タンジェント カーネル ベースの派生ガウス プロセスを標準のゼロ次最適化に組み込んでおり、パフォーマンスの高い局所最適化を効率的に探索します。
迅速な最適化。
驚くべきことに、ZOPO は最適化パフォーマンスとクエリ効率の両方の点で既存のベースラインを上回っており、これは広範な実験を通じて実証されています。

要約(オリジナル)

The efficacy of large language models (LLMs) in understanding and generating natural language has aroused a wide interest in developing prompt-based methods to harness the power of black-box LLMs. Existing methodologies usually prioritize a global optimization for finding the global optimum, which however will perform poorly in certain tasks. This thus motivates us to re-think the necessity of finding a global optimum in prompt optimization. To answer this, we conduct a thorough empirical study on prompt optimization and draw two major insights. Contrasting with the rarity of global optimum, local optima are usually prevalent and well-performed, which can be more worthwhile for efficient prompt optimization (Insight I). The choice of the input domain, covering both the generation and the representation of prompts, affects the identification of well-performing local optima (Insight II). Inspired by these insights, we propose a novel algorithm, namely localized zeroth-order prompt optimization (ZOPO), which incorporates a Neural Tangent Kernel-based derived Gaussian process into standard zeroth-order optimization for an efficient search of well-performing local optima in prompt optimization. Remarkably, ZOPO outperforms existing baselines in terms of both the optimization performance and the query efficiency, which we demonstrate through extensive experiments.

arxiv情報

著者 Wenyang Hu,Yao Shu,Zongmin Yu,Zhaoxuan Wu,Xiangqiang Lin,Zhongxiang Dai,See-Kiong Ng,Bryan Kian Hsiang Low
発行日 2024-03-05 14:18:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク