Offline Prompt Evaluation and Optimization with Inverse Reinforcement Learning

要約

ChatGPT のような大規模言語モデル (LLM) の開発における最近の進歩は、人間の専門知識を活用することで目覚ましいパフォーマンスを達成しました。
しかし、複雑なタスクに対する LLM の潜在能力を完全に引き出すには、自然言語プロンプトの広大な検索空間をナビゲートする必要があります。
プロンプト エンジニアリングは有望である一方で、試行錯誤の中で人間が作成する必要なプロンプトとそれに伴うコストが大きな課題を引き起こします。
重要なのは、迅速な最適化の効率は、迅速な評価というコストのかかる手順にかかっています。
この研究では、効果的なプロンプト評価と手頃な価格の間のギャップを埋めることを目的とした、オフライン逆強化学習に根ざしたアプローチである Prompt-OIRL を紹介します。
私たちの手法は専門家による評価からのオフライン データセットを利用し、Inverse-RL を使用してオフラインのクエリ依存のプロンプト評価の報酬モデルを導き出します。
Prompt-OIRL の利点は多岐にわたります。プロンプトのパフォーマンスを予測し、コスト効率が高く、人間が判読できる結果を生成し、プロンプト領域を効率的にナビゲートします。
私たちは 4 つの LLM と 3 つの算術データセットにわたってメソッドを検証し、オフラインでのプロンプト評価と最適化のための堅牢かつ効果的なツールとしての可能性を強調します。
私たちのコードとオフライン データセットがリリースされ、CPU を使用する 1 台のラップトップを使用して Prompt-OIRL を数時間以内に再現できることを強調します。

要約(オリジナル)

The recent advances in the development of Large Language Models (LLMs) like ChatGPT have achieved remarkable performance by leveraging human expertise. Yet, fully eliciting LLMs’ potential for complex tasks requires navigating the vast search space of natural language prompts. While prompt engineering has shown promise, the requisite human-crafted prompts in trial-and-error attempts and the associated costs pose significant challenges. Crucially, the efficiency of prompt optimization hinges on the costly procedure of prompt evaluation. This work introduces Prompt-OIRL, an approach rooted in offline inverse reinforcement learning that seeks to bridge the gap between effective prompt evaluation and affordability. Our method draws on offline datasets from expert evaluations, employing Inverse-RL to derive a reward model for offline, query-dependent prompt evaluations. The advantages of Prompt-OIRL are manifold: it predicts prompt performance, is cost-efficient, produces human-readable results, and efficiently navigates the prompt space. We validate our method across four LLMs and three arithmetic datasets, highlighting its potential as a robust and effective tool for offline prompt evaluation and optimization. Our code as well as the offline datasets are released, and we highlight the Prompt-OIRL can be reproduced within a few hours using a single laptop using CPU

arxiv情報

著者 Hao Sun
発行日 2023-09-13 01:12:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク