Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL

要約

この研究では、ゼロショットプロンプト最適化を通じて大規模言語モデル (LLM) の算術推論能力を強化することを目的としています。
私たちは、このような最適化におけるクエリ依存性というこれまで見落とされてきた目的を特定し、プロンプト最適化手法の成功した経済的な設計を妨げるその後の 2 つの課題を解明します。
主な問題の 1 つは、黄金の答えが利用できない場合に、推論中にプロンプトを評価する効果的な方法が存在しないことです。
同時に、LLM との対話を介して広大な自然言語プロンプト空間をナビゲートする学習は、リソースを大量に消費することがわかります。
これに対処するために、オフライン逆強化学習を利用してオフラインプロンプトデモンストレーションデータから洞察を引き出す Prompt-OIRL を導入します。
このようなデータは、オープンアクセス可能なデータセットでさまざまなプロンプトのベンチマークを行う際の副産物として存在します。
Prompt-OIRL を使用すると、最初にオフライン報酬モデルを学習することで、クエリ依存のプロンプト最適化目標を達成できます。
このモデルは、LLM にアクセスせずに、クエリとプロンプトのペアを評価できます。
その後、ベストオブ N 戦略が展開され、最適なプロンプトが推奨されます。
さまざまな LLM スケールと算術推論データセットにわたる実験的評価は、提案されたアプローチの有効性と経済的実行可能性の両方を強調しています。

要約(オリジナル)

In this study, we aim to enhance the arithmetic reasoning ability of Large Language Models (LLMs) through zero-shot prompt optimization. We identify a previously overlooked objective of query dependency in such optimization and elucidate two ensuing challenges that impede the successful and economical design of prompt optimization techniques. One primary issue is the absence of an effective method to evaluate prompts during inference when the golden answer is unavailable. Concurrently, learning via interactions with the LLMs to navigate the expansive natural language prompting space proves to be resource-intensive. To address this, we introduce Prompt-OIRL, which harnesses offline inverse reinforcement learning to draw insights from offline prompting demonstration data. Such data exists as by-products when diverse prompts are benchmarked on open-accessible datasets. With Prompt-OIRL, the query-dependent prompt optimization objective is achieved by first learning an offline reward model. This model can evaluate any query-prompt pairs without accessing LLMs. Subsequently, a best-of-N strategy is deployed to recommend the optimal prompt. Our experimental evaluations across various LLM scales and arithmetic reasoning datasets underscore both the efficacy and economic viability of the proposed approach.

arxiv情報

著者	Hao Sun,Alihan Hüyük,Mihaela van der Schaar
発行日	2023-09-29 12:45:18+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー