PRewrite: Prompt Rewriting with Reinforcement Learning

要約

LLM ベースのアプリケーションの開発には、迅速なエンジニアリングが重要です。
ただし、通常は「試行錯誤」形式で手動で行われます。
この手動手順は時間がかかり、非効率的である可能性があり、生成されるプロンプトは多くの場合最適とは言えません。
一見うまく機能しているように見えるプロンプトであっても、常に疑問が残ります。「さらに修正を加えることでプロンプトをより良くできるか?」ということです。
これらの質問に対処するために、このホワイト ペーパーでは、迅速なエンジニアリングの自動化について調査します。
開発者/ユーザーが初期プロンプトを作成したが、それを最適化するための時間/専門知識が不足しているという特定の使用例シナリオを検討します。
私たちは、これらのドラフトを書き直し、非常に効果的な新しいプロンプトを生成する自動ツールである PRewrite を提案します。
PRewrite は、エンドツーエンドの最適化を可能にする強化学習 (RL) フレームワークに基づいており、私たちの設計により、RL 検索が大規模なアクション空間で発生することが可能になります。
自動化ツールは、手動で作成されたプロンプトを出発点として利用するため、書き換え手順がよりガイド付きで効率的になります。
生成されたプロンプトは、以前の作品の一部とは異なり、人間が判読可能で、一目瞭然です。
私たちはさまざまなデータセットに対して広範な実験を行った結果、この新しい方法で生成されたプロンプトは、専門的に作成されたプロンプトよりも優れているだけでなく、以前に提案された他の方法で生成されたプロンプトよりも優れていることがわかりました。

要約(オリジナル)

Prompt engineering is critical for the development of LLM-based applications. However, it is usually done manually in a ‘trial and error’ fashion. This manual procedure can be time consuming, ineffective, and the generated prompts are, in a lot of cases, sub-optimal. Even for the prompts which seemingly work well, there is always a lingering question: can the prompts be made better with further modifications? To address these questions, in this paper, we investigate prompt engineering automation. We consider a specific use case scenario in which developers/users have drafted initial prompts, but lack the time/expertise to optimize them. We propose PRewrite, an automated tool to rewrite these drafts and to generate highly effective new prompts. PRewrite is based on the Reinforcement Learning (RL) framework which allows for end-to-end optimization and our design allows the RL search to happen in a large action space. The automated tool leverages manually crafted prompts as starting points which makes the rewriting procedure more guided and efficient. The generated prompts are human readable, and self-explanatory, unlike some of those in previous works. We conducted extensive experiments on diverse datasets and found that the prompts generated with this new method not only outperform professionally crafted prompts, but also prompts generated with other previously proposed methods.

arxiv情報

著者 Weize Kong,Spurthi Amba Hombaiah,Mingyang Zhang,Qiaozhu Mei,Michael Bendersky
発行日 2024-01-16 08:04:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク