Towards Fast Multilingual LLM Inference: Speculative Decoding and Specialized Drafters

要約

大規模言語モデル (LLM) は自然言語処理に革命をもたらし、その適用範囲をさまざまな商用アプリケーションに広げました。
ただし、これらのモデルの展開は、多言語設定では推論時間が長いため制約を受けます。
この課題を軽減するために、この論文では、投機的デコードにおけるアシスタント モデルのトレーニング レシピを検討します。このレシピはドラフトに利用され、将来のトークンはターゲット LLM によって検証されます。
ターゲットを絞った事前トレーニングと微調整戦略を通じて最適化された言語固有のドラフト モデルが、以前の方法と比較して推論時間の大幅な高速化をもたらすことを示します。
これらのモデルを、推論時間、ドメイン外の高速化、GPT-4o 評価においてさまざまな言語で検証します。

要約(オリジナル)

Large language models (LLMs) have revolutionized natural language processing and broadened their applicability across diverse commercial applications. However, the deployment of these models is constrained by high inference time in multilingual settings. To mitigate this challenge, this paper explores a training recipe of an assistant model in speculative decoding, which are leveraged to draft and-then its future tokens are verified by the target LLM. We show that language-specific draft models, optimized through a targeted pretrain-and-finetune strategy, substantially brings a speedup of inference time compared to the previous methods. We validate these models across various languages in inference time, out-of-domain speedup, and GPT-4o evaluation.

arxiv情報

著者 Euiin Yi,Taehyeon Kim,Hongseok Jeung,Du-Seong Chang,Se-Young Yun
発行日 2024-06-24 16:06:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク