要約
大規模言語モデル (LLM) によって促進され、パーソナライズされたテキスト生成は急速に成長している研究方向となっています。
既存の研究のほとんどは、特定のドメインに特化したモデルの設計に焦点を当てているか、パーソナライズされたテキストを生成するために LLM を微調整する必要があります。
パーソナライズされた出力を生成する大規模な言語モデルが凍結され、API 経由でのみアクセスできるという典型的なシナリオを考えます。
この制約の下でできることは、LLM に送信される入力テキスト (つまり、テキスト プロンプト) を改善することだけですが、この手順は通常手動で行われます。
この論文では、パーソナライズされたテキスト生成のためのプロンプトを自動的に修正する新しい方法を提案します。
提案された方法は、パーソナライズされた生成のための最先端の多段階フレームワークによって生成された初期プロンプトを取得し、個人的なコンテキストを要約および合成するいくつかの重要なコンポーネントを書き換えます。
プロンプト リライターは、教師あり学習 (SL) と強化学習 (RL) を連鎖させるトレーニング パラダイムを採用しており、SL は RL の検索スペースを削減し、RL はリライターのエンドツーエンドのトレーニングを容易にします。
3 つの代表的なドメインのデータセットを使用して、書き換えられたプロンプトが元のプロンプトと、教師あり学習または強化学習のみで最適化されたプロンプトの両方を上回るパフォーマンスを示すことを示します。
書き換えられたプロンプトの詳細な分析により、プロンプトは人間が判読できるだけでなく、プロンプト書き換えプログラムをトレーニングするための強化学習を採用するためのリソースが限られている場合、または自動プロンプトの導入にコストがかかる場合に、プロンプトを手動で改訂することもできることがわかりました。
リライターに推論を促す。
要約(オリジナル)
Facilitated by large language models (LLMs), personalized text generation has become a rapidly growing research direction. Most existing studies focus on designing specialized models for a particular domain, or they require fine-tuning the LLMs to generate personalized text. We consider a typical scenario in which the large language model, which generates personalized output, is frozen and can only be accessed through APIs. Under this constraint, all one can do is to improve the input text (i.e., text prompts) sent to the LLM, a procedure that is usually done manually. In this paper, we propose a novel method to automatically revise prompts for personalized text generation. The proposed method takes the initial prompts generated by a state-of-the-art, multistage framework for personalized generation and rewrites a few critical components that summarize and synthesize the personal context. The prompt rewriter employs a training paradigm that chains together supervised learning (SL) and reinforcement learning (RL), where SL reduces the search space of RL and RL facilitates end-to-end training of the rewriter. Using datasets from three representative domains, we demonstrate that the rewritten prompts outperform both the original prompts and the prompts optimized via supervised learning or reinforcement learning alone. In-depth analysis of the rewritten prompts shows that they are not only human readable, but also able to guide manual revision of prompts when there is limited resource to employ reinforcement learning to train the prompt rewriter, or when it is costly to deploy an automatic prompt rewriter for inference.
arxiv情報
著者 | Cheng Li,Mingyang Zhang,Qiaozhu Mei,Weize Kong,Michael Bendersky |
発行日 | 2024-02-08 18:23:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google