要約
大規模言語モデル (LLM) は、優れたインコンテキスト学習 (ICL) 機能を実証しています。LLM は、特定のテスト入力といくつかの入出力ペア (デモンストレーション) を予測します。
それにもかかわらず、デモンストレーションを含めると、自己注意メカニズムの計算オーバーヘッドが 2 次的に増加します。
既存のソリューションは、長いデモンストレーションをコンパクトなベクトルに抽出しようとしています。
ただし、多くの場合、タスク固有の再トレーニングが必要になったり、LLM のコンテキスト内学習パフォーマンスが損なわれたりすることがあります。
これらの課題を軽減するために、私たちは Meta dEmonstratioN Distillation (MEND) を提案します。これは、言語モデルが、新しい下流タスク用に再トレーニングすることなく、長いデモンストレーションをベクトルに抽出することを学習します。
当社は知識の蒸留を活用して MEND と LLM 間の連携を強化し、効率と有効性の両方を同時に達成します。
MEND には、メタ蒸留の事前トレーニングと微調整を含む 2 段階のトレーニング プロセスを通じて、蒸留デモンストレーションのメタ知識が備わっています。
デコーダのみ (GPT-2) およびエンコーダ/デコーダ (T5) を使用した 7 つの多様な ICL タスク パーティションにわたる包括的な評価は、MEND の優れた能力を証明しています。
これは、Vanilla ICL やその他の最先端の蒸留モデルに匹敵するだけでなく、多くの場合それを上回るパフォーマンスを示し、計算量を大幅に削減します。
このイノベーションにより、大規模な言語モデルの実際的な展開におけるスケーラビリティと効率の向上が約束されます。
要約(オリジナル)
Large Language models (LLMs) have demonstrated impressive in-context learning (ICL) capabilities, where a LLM makes predictions for a given test input together with a few input-output pairs (demonstrations). Nevertheless, the inclusion of demonstrations leads to a quadratic increase in the computational overhead of the self-attention mechanism. Existing solutions attempt to distill lengthy demonstrations into compact vectors. However, they often require task-specific retraining or compromise LLM’s in-context learning performance. To mitigate these challenges, we present Meta dEmonstratioN Distillation (MEND), where a language model learns to distill any lengthy demonstrations into vectors without retraining for a new downstream task. We exploit the knowledge distillation to enhance alignment between MEND and LLM, achieving both efficiency and effectiveness simultaneously. MEND is endowed with the meta-knowledge of distilling demonstrations through a two-stage training process, which includes meta-distillation pretraining and fine-tuning. Comprehensive evaluations across seven diverse ICL task partitions using decoder-only (GPT-2) and encoder-decoder (T5) attest to MEND’s prowess. It not only matches but often outperforms the Vanilla ICL as well as other state-of-the-art distillation models, while significantly reducing the computational demands. This innovation promises enhanced scalability and efficiency for the practical deployment of large language models
arxiv情報
著者 | Yichuan Li,Xiyao Ma,Sixing Lu,Kyumin Lee,Xiaohu Liu,Chenlei Guo |
発行日 | 2024-03-11 17:03:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google