要約
タイトル:大規模言語モデルのためのBoosted Promptアンサンブル
要約:
– チェーン・オブ・ソート・プロンプティングやセルフ・コンシステンシーのような手法は、言語モデルの推論性能のフロンティアを追求し、追加のトレーニングなしに良い性能を示しています。
– 性能をさらに向上させるために、我々は、大規模言語モデルのためのプロンプト・アンサンブル手法を提案しています。この手法は、少数のショット・プロンプトからなる「ブーステッド・プロンプト・アンサンブル」を構築するために、小さなデータセットを使用します。
– 各プロンプトの少数のショット例は、前のステップのアンサンブルが不確実な「ハード」な例に段階的に選択されます。
– GSM8kやAQuAデータセットなどを使用して、本手法が単一プロンプトのアウトプット・スペース・アンサンブルとバッグド・プロンプト・スペース・アンサンブルよりも優れた性能を示すことを示します。
– 情報の利用可能なレベルに異なるトレーニング・タイムとテスト・タイムのバージョンのブーステッド・プロンプティングを提案し、アルゴリズムの詳細な実証研究を行います。
要約(オリジナル)
Methods such as chain-of-thought prompting and self-consistency have pushed the frontier of language model reasoning performance with no additional training. To further improve performance, we propose a prompt ensembling method for large language models, which uses a small dataset to construct a set of few shot prompts that together comprise a “boosted prompt ensemble”. The few shot examples for each prompt are chosen in a stepwise fashion to be “hard” examples on which the previous step’s ensemble is uncertain. We show that this outperforms single-prompt output-space ensembles and bagged prompt-space ensembles on the GSM8k and AQuA datasets, among others. We propose both train-time and test-time versions of boosted prompting that use different levels of available annotation and conduct a detailed empirical study of our algorithm.
arxiv情報
著者 | Silviu Pitis,Michael R. Zhang,Andrew Wang,Jimmy Ba |
発行日 | 2023-04-12 16:47:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI