Embroid: Unsupervised Prediction Smoothing Can Improve Few-Shot Classification

要約

最近の研究では、言語モデル (LM) のプロンプトベースの学習機能が、手動によるアノテーションの費用がかかる領域でのデータ ラベル付けの自動化に適していることがわかっています。
課題は、最初のプロンプトの作成は低コストですが、プロンプトの改善にはコストがかかることです。プロンプトの変更の影響を評価するために、実務者は多くの場合、重要なラベル付きデータを必要とします。
私たちの研究では、追加のラベル付きデータなしでプロンプトベースの学習を改善できるかどうかを検討しています。
私たちは、プロンプト自体ではなく、プロンプトの予測を変更することによってこの問題に取り組みます。
私たちの直観では、正確な予測にも一貫性があるはずです。つまり、ある特徴表現の下で類似しているサンプルは、同じプロンプト予測を受け取るはずです。
我々は、異なる埋め込み関数の下でデータセットの複数の表現を計算し、隣接するサンプルの LM 予測間の一貫性を使用して予測ミスを識別する手法である Embroid を提案します。
次に、Embroid はこれらの近傍を使用して各サンプルの追加の予測を作成し、これらの予測を単純な潜在変数グラフィカル モデルと組み合わせて、最終的に修正された予測を生成します。
Embroid の理論的分析を提供することに加えて、6 つの異なる LM と最大 95 の異なるタスクにわたって厳密な実証的評価を実施します。
我々は、(1) Embroid は元のプロンプトに比べてパフォーマンスを大幅に向上させ (たとえば、GPT-JT で平均 7.3 ポイント)、(2) より洗練されたプロンプト戦略 (たとえば、思考連鎖) の改善も実現し、(3) 埋め込み関数を通じて法律などのドメインに特化できることを発見しました。

要約(オリジナル)

Recent work has shown that language models’ (LMs) prompt-based learning capabilities make them well suited for automating data labeling in domains where manual annotation is expensive. The challenge is that while writing an initial prompt is cheap, improving a prompt is costly — practitioners often require significant labeled data in order to evaluate the impact of prompt modifications. Our work asks whether it is possible to improve prompt-based learning without additional labeled data. We approach this problem by attempting to modify the predictions of a prompt, rather than the prompt itself. Our intuition is that accurate predictions should also be consistent: samples which are similar under some feature representation should receive the same prompt prediction. We propose Embroid, a method which computes multiple representations of a dataset under different embedding functions, and uses the consistency between the LM predictions for neighboring samples to identify mispredictions. Embroid then uses these neighborhoods to create additional predictions for each sample, and combines these predictions with a simple latent variable graphical model in order to generate a final corrected prediction. In addition to providing a theoretical analysis of Embroid, we conduct a rigorous empirical evaluation across six different LMs and up to 95 different tasks. We find that (1) Embroid substantially improves performance over original prompts (e.g., by an average of 7.3 points on GPT-JT), (2) also realizes improvements for more sophisticated prompting strategies (e.g., chain-of-thought), and (3) can be specialized to domains like law through the embedding functions.

arxiv情報

著者 Neel Guha,Mayee F. Chen,Kush Bhatia,Azalia Mirhoseini,Frederic Sala,Christopher Ré
発行日 2023-07-20 17:07:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク