Guiding Large Language Models via Directional Stimulus Prompting

要約

新しいフレームワークである Directional Stimulus Prompting を導入します。これは、調整可能な言語モデル (LM) を使用して、ダウンストリーム タスクのブラック ボックスで凍結された大規模言語モデル (LLM) のガイダンスを提供します。
各タスクに最適なプロンプトを手動または自動で見つける従来の作業とは異なり、要約のための記事のキーワードなどのヒント/キューである、各入力の「方向刺激」として個別のトークンを生成するようにポリシー LM をトレーニングします。
次に、方向刺激は元の入力と組み合わされ、LLM に供給されて、その生成を目的のターゲットに導きます。
ポリシー LM は、1) 注釈付きデータからの教師あり学習、および 2) オフラインおよびオンラインの報酬からの強化学習を通じてトレーニングして、LLM を人間の好みによりよく合わせる方向刺激を探索できます。
このフレームワークは、さまざまな LM やタスクに柔軟に適用できます。
その有効性を検証するために、フレームワークを要約および対話応答生成タスクに適用します。
実験結果は、トレーニング データの小さなコレクションで LLM のパフォーマンスを大幅に改善できることを示しています。CNN/Daily Mail データセットからの 2,000 サンプルでトレーニングされた T5 (780M) は、ROUGE-Avg で Codex (175B) のパフォーマンスを 7.2% 改善します。
スコア;
500 回のダイアログで合計スコアが 52.5% 上昇し、MultiWOZ データセットで完全にトレーニングされたモデルと同等またはそれ以上のパフォーマンスを達成します。

要約(オリジナル)

We introduce a new framework, Directional Stimulus Prompting, that uses a tuneable language model (LM) to provide guidance for the black-box frozen large language model (LLM) on downstream tasks. Unlike prior work that manually or automatically finds the optimal prompt for each task, we train a policy LM to generate discrete tokens as “directional stimulus” of each input, which is a hint/cue such as keywords of an article for summarization. The directional stimulus is then combined with the original input and fed into the LLM to guide its generation toward the desired target. The policy LM can be trained through 1) supervised learning from annotated data and 2) reinforcement learning from offline and online rewards to explore directional stimulus that better aligns LLMs with human preferences. This framework is flexibly applicable to various LMs and tasks. To verify its effectiveness, we apply our framework to summarization and dialogue response generation tasks. Experimental results demonstrate that it can significantly improve LLMs’ performance with a small collection of training data: a T5 (780M) trained with 2,000 samples from the CNN/Daily Mail dataset improves Codex (175B)’s performance by 7.2% in ROUGE-Avg scores; 500 dialogues boost the combined score by 52.5%, achieving comparable or even better performance than fully trained models on the MultiWOZ dataset.

arxiv情報

著者 Zekun Li,Baolin Peng,Pengcheng He,Michel Galley,Jianfeng Gao,Xifeng Yan
発行日 2023-02-22 17:44:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク