要約
大規模な言語モデルは、いくつかの例から新しいタスクを解決する方法を学習するための優れた能力を示しています。
プロンプト テンプレート、つまりプロンプトを取得するために入力例をフォーマットする方法は、コンテキスト内学習において重要ですが見落とされがちな側面です。
この研究では、テンプレート形式がコンテキスト内学習のパフォーマンスに与える影響について包括的な研究を行います。
モデル (770M から 70B パラメーター) と 4 つの標準分類データセットにわたるプロンプト テンプレートの影響を評価します。
テンプレートの選択を誤ると、最も強力なモデルと推論方法のパフォーマンスがランダムな推測レベルまで低下する可能性があることを示します。
さらに重要なことは、最適なテンプレートは、異なるセットアップ間で、さらには同じファミリーのモデル間でさえも移行しないことです。
私たちの調査結果は、テンプレートの選択を無視する現在普及している評価アプローチでは、作品ごとに異なるテンプレートが原因で誤解を招く結果をもたらす可能性があることを示しています。
この問題を軽減するための最初のステップとして、複数のテンプレートにわたるモデル予測を集約するテンプレート アンサンブルを提案します。
この単純なテスト時の拡張により、ランダムなテンプレート セットの選択に対して堅牢であると同時に、平均パフォーマンスが向上します。
要約(オリジナル)
Large language models demonstrate a remarkable capability for learning to solve new tasks from a few examples. The prompt template, or the way the input examples are formatted to obtain the prompt, is an important yet often overlooked aspect of in-context learning. In this work, we conduct a comprehensive study of the template format’s influence on the in-context learning performance. We evaluate the impact of the prompt template across models (from 770M to 70B parameters) and 4 standard classification datasets. We show that a poor choice of the template can reduce the performance of the strongest models and inference methods to a random guess level. More importantly, the best templates do not transfer between different setups and even between models of the same family. Our findings show that the currently prevalent approach to evaluation, which ignores template selection, may give misleading results due to different templates in different works. As a first step towards mitigating this issue, we propose Template Ensembles that aggregate model predictions across several templates. This simple test-time augmentation boosts average performance while being robust to the choice of random set of templates.
arxiv情報
著者 | Anton Voronov,Lena Wolf,Max Ryabinin |
発行日 | 2024-01-12 18:58:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google