PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Preference Alignment

要約

プロンプトの最適化は、特定のタスクに対する大規模言語モデル (LLM) に対する最適なプロンプトを見つけることを目的としています。
LLM は、シングルステップ タスクのプロンプト候補を見つけて改善するためにうまく使用されています。
ただし、エージェントの現実的なタスクは複数のステップからなり、新たな課題が生じます。(1) プロンプトの内容はより広範かつ複雑になる可能性が高く、LLM によるエラーの分析がより困難になります。(2) 個々のステップの影響が困難になります。
(3) 人によってタスクの実行に関する好みが異なる可能性があります。
人間はプロンプトを最適化するのに苦労していますが、LLM 出力に関するフィードバックを提供することは得意です。
したがって、人間が設計したフィードバック ルールを組み込んで、改善のための直接的な提案を自動的に提供する、新しい LLM 主導の離散プロンプト最適化フレームワークを導入します。
また、プロンプト候補から効率的にサンプリングするために、プロンプトのパフォーマンスを予測する追加の学習ヒューリスティック モデルも使用します。
このアプローチは、11 の代表的なマルチステップ タスクにわたって、人間が操作したプロンプトと他のいくつかのプロンプト最適化手法の両方を大幅に上回っています (5 つの LLM における現在の最良の手法に対して、それぞれ平均 10.6% ~ 29.3% の改善)。
さらに、タスクのスコア関数を個人の好みに合わせて変更できることを示します。
私たちは、私たちの成果が、LLM 主導の複数ステップのタスクの自動プロンプト最適化のベンチマークとして機能すると信じています。

要約(オリジナル)

Prompt optimization aims to find the best prompt to a large language model (LLM) for a given task. LLMs have been successfully used to help find and improve prompt candidates for single-step tasks. However, realistic tasks for agents are multi-step and introduce new challenges: (1) Prompt content is likely to be more extensive and complex, making it more difficult for LLMs to analyze errors, (2) the impact of an individual step is difficult to evaluate, and (3) different people may have varied preferences about task execution. While humans struggle to optimize prompts, they are good at providing feedback about LLM outputs; we therefore introduce a new LLM-driven discrete prompt optimization framework that incorporates human-designed feedback rules to automatically offer direct suggestions for improvement. We also use an extra learned heuristic model that predicts prompt performance to efficiently sample from prompt candidates. This approach significantly outperforms both human-engineered prompts and several other prompt optimization methods across 11 representative multi-step tasks (an average 10.6%-29.3% improvement to current best methods on five LLMs respectively). We further show that the score function for tasks can be modified to better align with individual preferences. We believe our work can serve as a benchmark for automatic prompt optimization for LLM-driven multi-step tasks.

arxiv情報

著者 Yongchao Chen,Jacob Arkin,Yilun Hao,Yang Zhang,Nicholas Roy,Chuchu Fan
発行日 2024-04-16 18:29:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.RO パーマリンク