PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Preference Alignment

要約

プロンプトの最適化は、特定のタスクに対する大規模言語モデル (LLM) に対する最適なプロンプトを見つけることを目的としています。
LLM は、シングルステップ タスクのプロンプト候補を見つけて改善するためにうまく使用されています。
ただし、エージェントの現実的なタスクは複数のステップからなり、新たな課題が生じます。(1) プロンプトの内容はより広範かつ複雑になる可能性が高く、LLM によるエラーの分析がより困難になります。(2) 個々のステップの影響が困難になります。
(3) 人によってタスクの実行に関する好みが異なる可能性があります。
人間はプロンプトを最適化するのに苦労していますが、LLM 出力に関するフィードバックを提供することは得意です。
そこで、潜在的なエラーに関する人間が設計したフィードバック ルールを組み込んで、改善のための直接的な提案を自動的に提供する、新しい LLM 主導の離散プロンプト最適化フレームワークを導入します。
私たちのフレームワークは、LLM が親プロンプトとそれに関連するフィードバックから新しい候補プロンプトを生成する遺伝的アルゴリズムとして定型化されています。
これらの候補から効率的にサンプリングするために、即時のパフォーマンスを予測する学習されたヒューリスティック関数を使用します。
このアプローチは、8 つの代表的なマルチステップ タスクにわたって、人間が操作したプロンプトと他のいくつかのプロンプト最適化手法の両方を大幅に上回ります (GPT-3.5 と GPT-4 の現在の最良の手法に対して、それぞれ平均 27.7% と 28.2% の改善)。
さらに、タスクのスコア関数を個人の好みに合わせて変更できることを示します。
私たちは、私たちの成果が、LLM 主導の複数ステップのタスクの自動プロンプト最適化のベンチマークとして機能すると信じています。
データセットとコードは https://github.com/yongchao98/PROMST で入手できます。
プロジェクト ページは https://yongchao98.github.io/MIT-REALM-PROMST で入手できます。

要約(オリジナル)

Prompt optimization aims to find the best prompt to a large language model (LLM) for a given task. LLMs have been successfully used to help find and improve prompt candidates for single-step tasks. However, realistic tasks for agents are multi-step and introduce new challenges: (1) Prompt content is likely to be more extensive and complex, making it more difficult for LLMs to analyze errors, (2) the impact of an individual step is difficult to evaluate, and (3) different people may have varied preferences about task execution. While humans struggle to optimize prompts, they are good at providing feedback about LLM outputs; we therefore introduce a new LLM-driven discrete prompt optimization framework that incorporates human-designed feedback rules about potential errors to automatically offer direct suggestions for improvement. Our framework is stylized as a genetic algorithm in which an LLM generates new candidate prompts from a parent prompt and its associated feedback; we use a learned heuristic function that predicts prompt performance to efficiently sample from these candidates. This approach significantly outperforms both human-engineered prompts and several other prompt optimization methods across eight representative multi-step tasks (an average 27.7% and 28.2% improvement to current best methods on GPT-3.5 and GPT-4, respectively). We further show that the score function for tasks can be modified to better align with individual preferences. We believe our work can serve as a benchmark for automatic prompt optimization for LLM-driven multi-step tasks. Datasets and Codes are available at https://github.com/yongchao98/PROMST. Project Page is available at https://yongchao98.github.io/MIT-REALM-PROMST.

arxiv情報

著者 Yongchao Chen,Jacob Arkin,Yilun Hao,Yang Zhang,Nicholas Roy,Chuchu Fan
発行日 2024-02-13 16:38:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.RO パーマリンク