Exploring Demonstration Ensembling for In-context Learning

要約

インコンテキスト学習 (ICL) は、特定のタスクの入出力ペアの言語モデル (LM) の例、つまりデモンストレーションを示すことによって機能します。
ICL の標準的なアプローチは、連結されたデモンストレーションとそれに続くテスト入力で LM を促すことです。
このアプローチにはいくつかの問題があります。
まず、連結ではモデル予測に対する各デモの寄与をほとんど制御できません。
一部のデモンストレーションがテスト例と無関係な場合、これは最適ではない可能性があります。
第 2 に、一部のトランスフォーマー モデルには入力長の制限があるため、特に長い入力タスクを扱う場合には、多くの例をコンテキストに適合させることが不可能になる可能性があります。
この作業では、単純な連結の代替手段としてデモンストレーション アンサンブル (DENSE) を検討します。
DENSE は、デモンストレーションのサブセット (つまり、バケット) を使用して出力を予測し、各サブセットから得られる出力確率を組み合わせて最終的な予測を生成します。
私たちは GPT-j を使用してさまざまなアンサンブル手法を研究し、12 の言語タスクを実験します。
私たちの実験では、加重最大アンサンブルがバニラ連結を平均 2.4 ポイントも上回るパフォーマンスを示しました。
コードは https://github.com/mukhal/icl-ensembling で入手できます。

要約(オリジナル)

In-context learning (ICL) operates by showing language models (LMs) examples of input-output pairs for a given task, i.e., demonstrations. The standard approach for ICL is to prompt the LM with concatenated demonstrations followed by the test input. This approach suffers from some issues. First, concatenation offers almost no control over the contribution of each demo to the model prediction. This can be sub-optimal when some demonstrations are irrelevant to the test example. Second, due to the input length limit of some transformer models, it might be infeasible to fit many examples into the context, especially when dealing with long-input tasks. In this work, we explore Demonstration Ensembling (DENSE) as an alternative to simple concatenation. DENSE predicts outputs using subsets (i.e., buckets) of the demonstrations and then combines the output probabilities resulting from each subset to produce the final prediction. We study different ensembling methods using GPT-j and experiment on 12 language tasks. Our experiments show weighted max ensembling to outperform vanilla concatenation by as large as 2.4 average points. Code available at https://github.com/mukhal/icl-ensembling.

arxiv情報

著者 Muhammad Khalifa,Lajanugen Logeswaran,Moontae Lee,Honglak Lee,Lu Wang
発行日 2023-08-21 01:25:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク