要約
大規模言語モデル (LLM) は通常、推論中に自己回帰生成を使用するため、高いメモリ帯域幅の需要が発生し、その結果遅延が長くなります。
この非効率性を軽減するために、合理化された半自己回帰生成とドラフト検証によって LLM を迅速化する革新的な方法である、ロスレス アクセラレーションのための双方向チューニング (BiTA) を紹介します。
プロンプト チューニングの概念に触発され、半自己回帰生成機能を実現するために、双方向チューニングと呼ばれるパラメーター効率の高い設計で LLM を強化します。
効率的なツリーベースのデコーディングを採用することで、モデルはドラフト候補の生成と検証を並行して実行し、貪欲なサンプリングの下で自己回帰対応するものと同一の出力を保証します。
BiTA は軽量のプラグイン モジュールとして機能し、追加の支援モデルを必要としたり、大幅な追加メモリ コストを発生させたりすることなく、既存の LLM の推論効率をシームレスに向上させます。
提案された BiTA を適用すると、LLaMA-2-70B-Chat は MT-Bench ベンチマークで 2.7$\times$ の高速化を達成します。
広範な実験により、私たちの手法が最先端の加速技術を超えていることが確認されています。
要約(オリジナル)
Large language models (LLMs) commonly employ autoregressive generation during inference, leading to high memory bandwidth demand and consequently extended latency. To mitigate this inefficiency, we present Bi-directional Tuning for lossless Acceleration (BiTA), an innovative method expediting LLMs via streamlined semi-autoregressive generation and draft verification. Inspired by the concept of prompt tuning, we enhance LLMs with a parameter-efficient design called bi-directional tuning for the capability in semi-autoregressive generation. Employing efficient tree-based decoding, the models perform draft candidate generation and verification in parallel, ensuring outputs identical to their autoregressive counterparts under greedy sampling. BiTA serves as a lightweight plug-in module, seamlessly boosting the inference efficiency of existing LLMs without requiring additional assistance models or incurring significant extra memory costs. Applying the proposed BiTA, LLaMA-2-70B-Chat achieves a 2.7$\times$ speedup on the MT-Bench benchmark. Extensive experiments confirm our method surpasses state-of-the-art acceleration techniques.
arxiv情報
著者 | Feng Lin,Hanling Yi,Hongbin Li,Yifan Yang,Xiaotian Yu,Guangming Lu,Rong Xiao |
発行日 | 2024-01-23 06:36:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google