Boosting Lossless Speculative Decoding via Feature Sampling and Partial Alignment Distillation

要約

ロスレス投機的デコードは、ツリー構造の候補を生成するための軽量のドラフト モデルを採用することにより、ターゲットの大規模言語モデル (LLM) の推論を加速します。その後、ターゲット LLM によって並列検証されます。
現在、効果的なアプローチでは、ドラフト モデル内でトークン レベルの自己回帰ではなく機能レベルの自己回帰を利用して、より直接的な予測と知識の抽出の強化を促進しています。
この論文では、これらのアプローチを再評価し、FSPAD (Feature Sampling and Partial Alignment Distillation for Lossless Speculative Decoding) を提案します。これは、既存のフレームワーク内に 2 つの直接的で効果的なコンポーネントを導入して、ロスレス投機的デコーディングを強化します。
まず、FSPAD はトークン埋め込みを利用して、ターゲット LLM の特徴をドラフト モデルにフィードする前に、高次元空間でターゲット LLM の特徴をサンプリングします。これは、特徴に固有の不確実性があるため、ドラフト モデルはターゲット LLM によって出力された特定のトークンを取得できません。
第 2 に、FSPAD は部分アライメント蒸留を導入して、ドラフト モデルの特徴とロジット間の関係を弱め、トレーニング中の特徴アライメントとロジットの信頼性の間の矛盾を軽減することを目的としています。
私たちの実験には、Vicuna および LLaMA3-Instruct シリーズの最大および最小のモデルでの貪欲デコードと非貪欲デコードの両方が含まれます。また、マルチターン会話、翻訳、要約、質問応答、数学的推論、検索拡張生成のタスクも含まれます。

結果は、FSPAD が前述のすべてのタスクとターゲット LLM にわたって最先端の方法よりも優れていることを示しています。

要約(オリジナル)

Lossless speculative decoding accelerates target large language model (LLM) inference by employing a lightweight draft model for generating tree-structured candidates, which are subsequently verified in parallel by the target LLM. Currently, effective approaches leverage feature-level rather than token-level autoregression within the draft model to facilitate more straightforward predictions and enhanced knowledge distillation. In this paper, we reassess these approaches and propose FSPAD (Feature Sampling and Partial Alignment Distillation for Lossless Speculative Decoding), which introduces two straightforward and effective components within the existing framework to boost lossless speculative decoding. Firstly, FSPAD utilizes token embeddings to sample features of the target LLM in high-dimensional space before feeding them into the draft model, due to the inherent uncertainty of the features preventing the draft model from obtaining the specific token output by the target LLM. Secondly, FSPAD introduces partial alignment distillation to weaken the draft model’s connection between features and logits, aiming to reduce the conflict between feature alignment and logit confidence during training. Our experiments include both greedy and non-greedy decoding on the largest and smallest models from the Vicuna and LLaMA3-Instruct series, as well as tasks in multi-turn conversation, translation, summarization, question answering, mathematical reasoning, and retrieval-augmented generation. The results show that FSPAD outperforms the state-of-the-art method across all the aforementioned tasks and target LLMs.

arxiv情報

著者 Lujun Gui,Bin Xiao,Lei Su,Weipeng Chen
発行日 2024-08-28 06:28:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク