Prompt Optimization with Logged Bandit Data

要約

本研究では、プロンプトを用いてパーソナライズされた文章を生成するための大規模言語モデル(LLM)パイプラインを最適化するために、クリックなどの自然に利用可能なユーザフィードバックを利用する方法を研究する。プロンプト空間におけるポリシーの勾配を推定するナイーブなアプローチは、プロンプトの大きな行動空間によって引き起こされる分散や、不正確な報酬予測によって引き起こされるバイアスに悩まされる。これらの課題を回避するために、我々はカーネルベースのオフポリシー勾配法を提案する。これは、生成された文の類似性を利用してポリシー勾配を推定し、バイアスを抑制しながら分散を大幅に削減する。我々が新たに確立した一連のベンチマークを用いた実証結果により、特に候補となるプロンプトの数が多い場合に、映画推薦のためのパーソナライズされた説明文を生成する上で、提案アプローチの有効性が実証された。

要約(オリジナル)

We study how to use naturally available user feedback, such as clicks, to optimize large language model (LLM) pipelines for generating personalized sentences using prompts. Naive approaches, which estimate the policy gradient in the prompt space, suffer either from variance caused by the large action space of prompts or bias caused by inaccurate reward predictions. To circumvent these challenges, we propose a novel kernel-based off-policy gradient method, which estimates the policy gradient by leveraging similarity among generated sentences, substantially reducing variance while suppressing the bias. Empirical results on our newly established suite of benchmarks demonstrate the effectiveness of the proposed approach in generating personalized descriptions for movie recommendations, particularly when the number of candidate prompts is large.

arxiv情報

著者 Haruka Kiyohara,Daniel Yiming Cao,Yuta Saito,Thorsten Joachims
発行日 2025-04-03 14:40:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.IR, cs.LG, stat.ML パーマリンク