要約
大規模言語モデル (LLM) はその優れた機能で人気がありますが、モデル固有の微調整やタスク固有の迅速なエンジニアリングが必要なため、一般化が妨げられる可能性があります。
UPRISE (Universal Prompt Retrieval for Improving zero-Shot Evaluation) を提案します。これは、指定されたゼロ ショット タスク入力のプロンプトを自動的に取得する軽量で用途の広いレトリーバーを調整します。
具体的には、クロスタスクおよびクロスモデルのシナリオで普遍性を示します。レトリーバーはさまざまなタスクのセットで調整されていますが、目に見えないタスクタイプでテストされています。
レトリバーの調整には小型の冷凍LLMであるGPT-Neo-2.7Bを使用していますが、BLOOM-7.1B、OPT-66B、GPT3-175Bなど、はるかに大きなスケールのさまざまなLLMでレトリーバーをテストしています。
さらに、ChatGPT を使用した実験で UPRISE が幻覚の問題を緩和することを示しており、最強の LLM でさえも改善する可能性を示唆しています。
私たちのモデルとコードは、https://github.com/microsoft/LMOps で入手できます。
要約(オリジナル)
Large Language Models (LLMs) are popular for their impressive abilities, but the need for model-specific fine-tuning or task-specific prompt engineering can hinder their generalization. We propose UPRISE (Universal Prompt Retrieval for Improving zero-Shot Evaluation), which tunes a lightweight and versatile retriever that automatically retrieves prompts for a given zero-shot task input. Specifically, we demonstrate universality in a cross-task and cross-model scenario: the retriever is tuned on a diverse set of tasks, but tested on unseen task types; we use a small frozen LLM, GPT-Neo-2.7B, for tuning the retriever, but test the retriever on different LLMs of much larger scales, such as BLOOM-7.1B, OPT-66B and GPT3-175B. Additionally, we show that UPRISE mitigates the hallucination problem in our experiments with ChatGPT, suggesting its potential to improve even the strongest LLMs. Our model and code are available at https://github.com/microsoft/LMOps.
arxiv情報
著者 | Daixuan Cheng,Shaohan Huang,Junyu Bi,Yuefeng Zhan,Jianfeng Liu,Yujing Wang,Hao Sun,Furu Wei,Denvy Deng,Qi Zhang |
発行日 | 2023-03-22 11:29:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google