要約
プロンプトの最適化は、特定のタスクに対する大規模言語モデル (LLM) に対する最適なプロンプトを見つけることを目的としています。
LLM は、シングルステップ タスクのプロンプト候補を見つけて改善するためにうまく使用されています。
ただし、エージェントの現実的なタスクは複数のステップからなり、新たな課題が生じます。(1) プロンプトの内容はより広範かつ複雑になる可能性が高く、LLM によるエラーの分析がより困難になります。(2) 個々のステップの影響が困難になります。
(3) 人によってタスクの実行に関する好みが異なる可能性があります。
人間はプロンプトを最適化するのに苦労していますが、LLM 出力に関するフィードバックを提供することは得意です。
そこで、人間が設計したフィードバック ルールを組み込んで、改善のための直接的な提案を自動的に提供する、新しい LLM 駆動の離散プロンプト最適化フレームワーク PROMST を導入しました。
また、プロンプト候補から効率的にサンプリングするために、プロンプトのパフォーマンスを予測する追加の学習ヒューリスティック モデルも使用します。
このアプローチは、11 の代表的なマルチステップ タスクにわたって、人間が操作したプロンプトとその他のいくつかのプロンプト最適化手法の両方を大幅に上回っています (5 つの LLM における現在の最良の手法に対して、それぞれ平均 10.6\% ~ 29.3\% の改善)。
私たちは、私たちの成果が、LLM 主導の複数ステップのタスクの自動プロンプト最適化のベンチマークとして機能すると信じています。
データセットとコードは https://github.com/yongchao98/PROMST で入手できます。
プロジェクト ページは https://yongchao98.github.io/MIT-REALM-PROMST/ で入手できます。
要約(オリジナル)
Prompt optimization aims to find the best prompt to a large language model (LLM) for a given task. LLMs have been successfully used to help find and improve prompt candidates for single-step tasks. However, realistic tasks for agents are multi-step and introduce new challenges: (1) Prompt content is likely to be more extensive and complex, making it more difficult for LLMs to analyze errors, (2) the impact of an individual step is difficult to evaluate, and (3) different people may have varied preferences about task execution. While humans struggle to optimize prompts, they are good at providing feedback about LLM outputs; we therefore introduce a new LLM-driven discrete prompt optimization framework PROMST that incorporates human-designed feedback rules to automatically offer direct suggestions for improvement. We also use an extra learned heuristic model that predicts prompt performance to efficiently sample from prompt candidates. This approach significantly outperforms both human-engineered prompts and several other prompt optimization methods across 11 representative multi-step tasks (an average 10.6\%-29.3\% improvement to current best methods on five LLMs respectively). We believe our work can serve as a benchmark for automatic prompt optimization for LLM-driven multi-step tasks. Datasets and Codes are available at https://github.com/yongchao98/PROMST. Project Page is available at https://yongchao98.github.io/MIT-REALM-PROMST/.
arxiv情報
著者 | Yongchao Chen,Jacob Arkin,Yilun Hao,Yang Zhang,Nicholas Roy,Chuchu Fan |
発行日 | 2024-06-16 18:01:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google