MEND: Meta dEmonstratioN Distillation for Efficient and Effective In-Context Learning

要約

大規模言語モデル (LLM) は、優れたインコンテキスト学習 (ICL) 機能を実証しています。LLM は、特定のテスト入力といくつかの入出力ペア (デモンストレーション) を予測します。
それにもかかわらず、デモンストレーションを含めると、自己注意メカニズムの計算オーバーヘッドが 2 次的に増加します。
既存のソリューションは、長いデモンストレーションをコンパクトなベクトルに抽出しようとしています。
ただし、多くの場合、タスク固有の再トレーニングが必要になったり、LLM のコンテキスト内学習パフォーマンスが損なわれたりすることがあります。
これらの課題を軽減するために、私たちは Meta dEmonstratioN Distillation (MEND) を提案します。これは、言語モデルが、新しい下流タスク用に再トレーニングすることなく、長いデモンストレーションをベクトルに抽出することを学習します。
当社は知識の蒸留を活用して MEND と LLM 間の連携を強化し、効率と有効性の両方を同時に達成します。
MEND には、メタ蒸留の事前トレーニングと微調整を含む 2 段階のトレーニング プロセスを通じて、蒸留デモンストレーションのメタ知識が備わっています。
デコーダのみ (GPT-2) およびエンコーダ/デコーダ (T5) を使用した 7 つの多様な ICL タスク パーティションにわたる包括的な評価は、MEND の優れた能力を証明しています。
これは、Vanilla ICL やその他の最先端の蒸留モデルに匹敵するだけでなく、多くの場合それを上回るパフォーマンスを示し、計算量を大幅に削減します。
このイノベーションにより、大規模な言語モデルの実際的な展開におけるスケーラビリティと効率の向上が約束されます。

要約(オリジナル)

Large Language models (LLMs) have demonstrated impressive in-context learning (ICL) capabilities, where a LLM makes predictions for a given test input together with a few input-output pairs (demonstrations). Nevertheless, the inclusion of demonstrations leads to a quadratic increase in the computational overhead of the self-attention mechanism. Existing solutions attempt to distill lengthy demonstrations into compact vectors. However, they often require task-specific retraining or compromise LLM’s in-context learning performance. To mitigate these challenges, we present Meta dEmonstratioN Distillation (MEND), where a language model learns to distill any lengthy demonstrations into vectors without retraining for a new downstream task. We exploit the knowledge distillation to enhance alignment between MEND and LLM, achieving both efficiency and effectiveness simultaneously. MEND is endowed with the meta-knowledge of distilling demonstrations through a two-stage training process, which includes meta-distillation pretraining and fine-tuning. Comprehensive evaluations across seven diverse ICL task partitions using decoder-only (GPT-2) and encoder-decoder (T5) attest to MEND’s prowess. It not only matches but often outperforms the Vanilla ICL as well as other state-of-the-art distillation models, while significantly reducing the computational demands. This innovation promises enhanced scalability and efficiency for the practical deployment of large language models

arxiv情報

著者 Yichuan Li,Xiyao Ma,Sixing Lu,Kyumin Lee,Xiaohu Liu,Chenlei Guo
発行日 2024-03-11 17:03:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク