Unifying Demonstration Selection and Compression for In-Context Learning

要約

インコンテキスト学習 (ICL) は、さまざまなシナリオで素晴らしい創発機能を示す大規模言語モデル (LLM) を促進します。
残念ながら、デモを導入するとプロンプトの長さが爆発的に長くなりやすく、ハードウェアに多大な負担をもたらします。
さらに、ランダムなデモンストレーションでは通常、ICL の改善が限定的であるため、アクセス可能な候補の中からデモンストレーションを選択する必要があります。
以前の研究では、デモンストレーションの圧縮または選択を独立して実行するための追加のモジュールが導入されています。
この論文では、単一の凍結 LLM を介してデモンストレーションの選択と圧縮、および最終応答の生成を統合する ICL フレームワーク UniICL を提案します。
具体的には、UniICL は最初に実際のデモンストレーションと推論テキスト入力をそれぞれ短い仮想トークンに投影します。
次に、仮想トークンを適用して、候補デモンストレーションと推論入力間の潜在空間内の意味的類似性を測定することにより、適切なデモンストレーションを選択します。
最後に、推論テキスト入力と選択された仮想デモンストレーションが、応答生成のために同じ凍結 LLM に供給されます。
特に、UniICL は、投影層から生成される 1,700 万のトレーニング可能なパラメータのみを含む、パラメータ効率の高いフレームワークです。
私たちは、生成タスクと理解タスクの両方のドメイン内およびドメイン外のデータセットに対して実験と分析を実施し、豊富かつ限られた実証候補を含む ICL シナリオを網羅します。
結果は、UniICL が $12 \times$ 圧縮、デモンストレーション選択、応答生成を効果的に統合し、24 GB CUDA 割り当てを使用して IMDb でベースラインを 4 ショットから 64 ショット ICL に効率的にスケールアップしていることを示しています。

要約(オリジナル)

In-context learning (ICL) facilitates large language models (LLMs) exhibiting spectacular emergent capabilities in various scenarios. Unfortunately, introducing demonstrations easily makes the prompt length explode, bringing a significant burden to hardware. In addition, random demonstrations usually achieve limited improvements in ICL, necessitating demonstration selection among accessible candidates. Previous studies introduce extra modules to perform demonstration compression or selection independently. In this paper, we propose an ICL framework UniICL, which Unifies demonstration selection and compression, and final response generation via a single frozen LLM. Specifically, UniICL first projects actual demonstrations and inference text inputs into short virtual tokens, respectively. Then, virtual tokens are applied to select suitable demonstrations by measuring semantic similarity within latent space among candidate demonstrations and inference input. Finally, inference text inputs together with selected virtual demonstrations are fed into the same frozen LLM for response generation. Notably, UniICL is a parameter-efficient framework that only contains 17M trainable parameters originating from the projection layer. We conduct experiments and analysis over in- and out-domain datasets of both generative and understanding tasks, encompassing ICL scenarios with plentiful and limited demonstration candidates. Results show that UniICL effectively unifies $12 \times$ compression, demonstration selection, and response generation, efficiently scaling up the baseline from 4-shot to 64-shot ICL in IMDb with 24 GB CUDA allocation

arxiv情報

著者 Jun Gao
発行日 2024-05-27 11:31:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク