PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Heuristic-based Sampling

要約

プロンプト最適化の目的は、与えられたタスクに最適なプロンプトを大規模言語モデル(LLM)に求めることである。LLMは、シングルステップのタスクのプロンプト候補を見つけ、改善するために使用されてきた。(1)プロンプトの内容はより広範で複雑になる可能性が高く、LLMがエラーを分析することがより困難になる、(2)個々のステップの影響を評価することが困難である、(3)タスク実行に関する好みは人によって異なる可能性がある。そこで我々は、LLM駆動の新しい離散プロンプト最適化フレームワークPRompt Optimization in Multi-Step Tasks (PROMST)を導入し、人間が設計したフィードバックルールを組み込んで、改善のための直接的な提案を自動的に行う。また、プロンプト候補から効率的にサンプリングするために、プロンプトのパフォーマンスを予測する追加学習されたヒューリスティックモデルを用いる。このアプローチは、11の代表的なマルチステップタスクにおいて、人間が設計したプロンプトと他のいくつかのプロンプト最適化手法の両方を大幅に上回る(それぞれ5つのLLMにおいて、現在の最良手法に対して平均10.6%~29.3%の改善)。我々は、我々の研究が、LLM駆動マルチステップタスクの自動プロンプト最適化のベンチマークになると信じている。データセットとコードはhttps://github.com/yongchao98/PROMST。プロジェクトページはhttps://yongchao98.github.io/MIT-REALM-PROMST。

要約(オリジナル)

Prompt optimization aims to find the best prompt to a large language model (LLM) for a given task. LLMs have been successfully used to help find and improve prompt candidates for single-step tasks. However, realistic tasks for agents are multi-step and introduce new challenges: (1) Prompt content is likely to be more extensive and complex, making it more difficult for LLMs to analyze errors, (2) the impact of an individual step is difficult to evaluate, and (3) different people may have varied preferences about task execution. While humans struggle to optimize prompts, they are good at providing feedback about LLM outputs; we therefore introduce a new LLM-driven discrete prompt optimization framework PRompt Optimization in Multi-Step Tasks (PROMST) that incorporates human-designed feedback rules to automatically offer direct suggestions for improvement. We also use an extra learned heuristic model that predicts prompt performance to efficiently sample from prompt candidates. This approach significantly outperforms both human-engineered prompts and several other prompt optimization methods across 11 representative multi-step tasks (an average 10.6\%-29.3\% improvement to current best methods on five LLMs respectively). We believe our work can serve as a benchmark for automatic prompt optimization for LLM-driven multi-step tasks. Datasets and Codes are available at https://github.com/yongchao98/PROMST. Project Page is available at https://yongchao98.github.io/MIT-REALM-PROMST.

arxiv情報

著者 Yongchao Chen,Jacob Arkin,Yilun Hao,Yang Zhang,Nicholas Roy,Chuchu Fan
発行日 2024-10-03 16:11:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.HC, cs.RO パーマリンク