Prompt Optimization with Human Feedback

要約

大規模言語モデル (LLM) は、さまざまなタスクで顕著なパフォーマンスを実証しています。
ただし、LLM のパフォーマンスは入力プロンプトに大きく依存するため、プロンプトの最適化に関する最近の取り組みが数多く行われています。
ただし、以前の作品では、すべてのプロンプトの品質を評価するために数値スコアの利用が必要になることがよくありました。
残念ながら、人間のユーザーがブラックボックス LLM と対話する場合、そのようなスコアを達成することは多くの場合実行不可能で信頼性がありません。
代わりに、人間のユーザーから好みのフィードバックを取得する方が、通常は非常に簡単で信頼性が高くなります。つまり、一対のプロンプトから生成された応答をユーザーに示し、どちらが好みかをユーザーに尋ねます。
したがって、この論文では、人間のフィードバックによるプロンプト最適化 (POHF) の問題を研究します。この問題では、人間の好みのフィードバックのみを使用してブラックボックス LLM のプロンプトを最適化することを目的としています。
バンディットの決闘からインスピレーションを得て、反復ごとに好みのフィードバックをクエリするためのプロンプトのペアを選択する理論的に原則に基づいた戦略を設計し、自動 POHF (APOHF) と呼ばれるアルゴリズムを導入しました。
当社は、APOHF アルゴリズムを、ユーザー指示の最適化、テキストから画像への生成モデルのプロンプト最適化、人間のフィードバックによる応答の最適化 (つまり、APOHF のバリアントを使用して応答をさらに調整する) など、さまざまなタスクに適用します。
この結果は、APOHF が少数の設定フィードバック インスタンスを使用して適切なプロンプトを効率的に見つけられることを示しています。
コードは \url{https://github.com/xqlin98/APOHF} にあります。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable performances in various tasks. However, the performance of LLMs heavily depends on the input prompt, which has given rise to a number of recent works on prompt optimization. However, previous works often require the availability of a numeric score to assess the quality of every prompt. Unfortunately, when a human user interacts with a black-box LLM, attaining such a score is often infeasible and unreliable. Instead, it is usually significantly easier and more reliable to obtain preference feedback from a human user, i.e., showing the user the responses generated from a pair of prompts and asking the user which one is preferred. Therefore, in this paper, we study the problem of prompt optimization with human feedback (POHF), in which we aim to optimize the prompt for a black-box LLM using only human preference feedback. Drawing inspiration from dueling bandits, we design a theoretically principled strategy to select a pair of prompts to query for preference feedback in every iteration, and hence introduce our algorithm named automated POHF (APOHF). We apply our APOHF algorithm to various tasks, including optimizing user instructions, prompt optimization for text-to-image generative models, and response optimization with human feedback (i.e., further refining the response using a variant of our APOHF). The results demonstrate that our APOHF can efficiently find a good prompt using a small number of preference feedback instances. Our code can be found at \url{https://github.com/xqlin98/APOHF}.

arxiv情報

著者 Xiaoqiang Lin,Zhongxiang Dai,Arun Verma,See-Kiong Ng,Patrick Jaillet,Bryan Kian Hsiang Low
発行日 2024-05-27 16:49:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク