Unleashing the Potential of Large Language Models as Prompt Optimizers: An Analogical Analysis with Gradient-based Model Optimizers

要約

自動プロンプト最適化は、大規模言語モデル (LLM) のパフォーマンスを向上させるための重要なアプローチです。
最近の研究では、LLM をプロンプト オプティマイザーとして使用する可能性が実証されており、反復的な改良により改善されたタスク プロンプトを生成できます。
この論文では、勾配ベースのモデル オプティマイザーとの類推を行うことにより、LLM ベースのプロンプト オプティマイザーの設計を調査するための新しい視点を提案します。
これら 2 つのアプローチを結び付けるために、モデル パラメーターの学習における 2 つの重要な要素、つまり更新方向と更新方法を特定します。
この 2 つの側面に焦点を当て、勾配ベースの最適化から理論的フレームワークと学習方法を借用して、LLM ベースのプロンプト オプティマイザーの改良された戦略を設計します。
豊富な改善戦略を体系的に分析することで、GPO と呼ばれる有能なグラデーションにインスピレーションを受けた LLM ベースのプロンプト オプティマイザーをさらに開発します。
各ステップでは、まず、更新方向として最適化の軌跡から関連するプロンプトを取得します。
次に、コサインベースの減衰戦略を通じて編集距離を制御しながら、世代ベースのリファインメント戦略を利用して更新を実行します。
広範な実験により、GPO の有効性と効率性が実証されています。
特に、GPO は、ベースライン手法と比較して、Big-Bench Hard で最大 56.8%、MMLU で 55.3% のさらなる改善をもたらします。

要約(オリジナル)

Automatic prompt optimization is an important approach to improving the performance of large language models (LLMs). Recent research demonstrates the potential of using LLMs as prompt optimizers, which can generate improved task prompts via iterative refinement. In this paper, we propose a novel perspective to investigate the design of LLM-based prompt optimizers, by drawing an analogy with gradient-based model optimizers. To connect these two approaches, we identify two pivotal factors in model parameter learning: update direction and update method. Focused on the two aspects, we borrow the theoretical framework and learning methods from gradient-based optimization to design improved strategies for LLM-based prompt optimizers. By systematically analyzing a rich set of improvement strategies, we further develop a capable Gradient-inspired LLM-based Prompt Optimizer called GPO. At each step, it first retrieves relevant prompts from the optimization trajectory as the update direction. Then, it utilizes the generation-based refinement strategy to perform the update, while controlling the edit distance through a cosine-based decay strategy. Extensive experiments demonstrate the effectiveness and efficiency of GPO. In particular, GPO brings an additional improvement of up to 56.8% on Big-Bench Hard and 55.3% on MMLU compared to baseline methods.

arxiv情報

著者 Xinyu Tang,Xiaolei Wang,Wayne Xin Zhao,Siyuan Lu,Yaliang Li,Ji-Rong Wen
発行日 2024-02-27 15:05:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク