Compositional Exemplars for In-context Learning

要約

大規模な事前学習を行った言語モデル(LM)は、In-Context Learning (ICL)という、パラメータを更新することなく、入出力例からなるプロンプトをデモンストレーションとして、モデルが未見のタスクを行うことを学習する、印象的な能力を示しています。ICLの性能は、選択されたインコンテクスト例の品質に大きく支配される。しかし、これまでの選択方法は、ほとんどが単純なヒューリスティックに基づくものであり、最適とは言えない性能になる。本研究では、文脈内事例選択を部分集合選択問題として定式化する。CEILは、与えられた入力と文脈内の例との間の相互作用をモデル化するために決定論的点過程(DPP)によってインスタンス化され、LMから優先度を得るために慎重に設計された対照的学習目的によって最適化される(CEIL:Compositional Exemplars for In-context Learning)ことを提案する。CEILは、感情分析、言い換え検出、自然言語推論、常識的推論、オープンドメイン質問応答、コード生成、意味解析など、7つの異なるNLPタスクからなる12の分類および生成データセットで検証された。広範な実験により、最先端の性能だけでなく、CEILの移植性と構成性が実証され、効果的で効率的な文脈内学習に新たな光を当てています。私たちのコードは https://github.com/HKUNLP/icl-ceil で公開されています。

要約(オリジナル)

Large pretrained language models (LMs) have shown impressive In-Context Learning (ICL) ability, where the model learns to do an unseen task via a prompt consisting of input-output examples as the demonstration, without any parameter updates. The performance of ICL is highly dominated by the quality of the selected in-context examples. However, previous selection methods are mostly based on simple heuristics, leading to sub-optimal performance. In this work, we formulate in-context example selection as a subset selection problem. We propose CEIL (Compositional Exemplars for In-context Learning), which is instantiated by Determinantal Point Processes (DPPs) to model the interaction between the given input and in-context examples, and optimized through a carefully-designed contrastive learning objective to obtain preference from LMs. We validate CEIL on 12 classification and generation datasets from 7 distinct NLP tasks, including sentiment analysis, paraphrase detection, natural language inference, commonsense reasoning, open-domain question answering, code generation, and semantic parsing. Extensive experiments demonstrate not only the state-of-the-art performance but also the transferability and compositionality of CEIL, shedding new light on effective and efficient in-context learning. Our code is released at https://github.com/HKUNLP/icl-ceil.

arxiv情報

著者 Jiacheng Ye,Zhiyong Wu,Jiangtao Feng,Tao Yu,Lingpeng Kong
発行日 2023-03-06 15:24:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク