Lookahead: An Inference Acceleration Framework for Large Language Model with Lossless Generation Accuracy

要約

大規模言語モデル (LLM) が質問応答、翻訳、テキスト要約、対話システムなどのさまざまなタスクにわたって大幅な進歩を遂げているため、特に Alipay のような数十億人のユーザーにサービスを提供する本格的な金融商品では、情報の正確性の必要性が非常に重要になっています。
これに対処するために、Alipay は、LLM を最も正確で最新の情報に基づいて提供する検索拡張生成 (RAG) システムを開発しました。
ただし、何百万ものユーザーにサービスを提供する実際の製品では、単なる実験モデルと比較して、LLM の推論速度が重要な要素になります。
したがって、このホワイトペーパーでは、推論プロセスを高速化するための一般的なフレームワークを紹介します。これにより、ロスのない生成精度で、RAG システムの速度が大幅に向上し、コストが削減されます。
従来の推論プロセスでは、LLM によって各トークンが順番に生成されるため、生成されたトークンの数に比例して時間がかかります。
このプロセスを強化するために、\textit{lookahead} という名前のフレームワークに \textit{multi-branch} 戦略が導入されています。
一度に単一のトークンを生成する代わりに、それぞれが一連のトークンである複数の分岐を同時に生成できる \textit{トライベースの検索} (TR) プロセスを提案します。
その後、分岐ごとに \textit{Verification and Accept} (VA) プロセスが実行され、最も長い正しいサブシーケンスが最終出力として識別されます。
私たちの戦略には 2 つの明確な利点があります。(1) 出力の絶対的な正確性を保証し、近似アルゴリズムを回避します。(2) 私たちのアプローチの最悪の場合のパフォーマンスは従来のプロセスと同等です。
私たちは、推論高速化フレームワークを適用することによって達成される大幅な改善を実証するために広範な実験を行っています。
コードは https://github.com/alipay/PainlessInferenceAcceleration から入手できます。

要約(オリジナル)

As Large Language Models (LLMs) have made significant advancements across various tasks, such as question answering, translation, text summarization, and dialogue systems, the need for accuracy in information becomes crucial, especially for serious financial products serving billions of users like Alipay. To address this, Alipay has developed a Retrieval-Augmented Generation (RAG) system that grounds LLMs on the most accurate and up-to-date information. However, for a real-world product serving millions of users, the inference speed of LLMs becomes a critical factor compared to a mere experimental model. Hence, this paper presents a generic framework for accelerating the inference process, resulting in a substantial increase in speed and cost reduction for our RAG system, with lossless generation accuracy. In the traditional inference process, each token is generated sequentially by the LLM, leading to a time consumption proportional to the number of generated tokens. To enhance this process, our framework, named \textit{lookahead}, introduces a \textit{multi-branch} strategy. Instead of generating a single token at a time, we propose a \textit{Trie-based Retrieval} (TR) process that enables the generation of multiple branches simultaneously, each of which is a sequence of tokens. Subsequently, for each branch, a \textit{Verification and Accept} (VA) process is performed to identify the longest correct sub-sequence as the final output. Our strategy offers two distinct advantages: (1) it guarantees absolute correctness of the output, avoiding any approximation algorithms, and (2) the worst-case performance of our approach is equivalent to the conventional process. We conduct extensive experiments to demonstrate the significant improvements achieved by applying our inference acceleration framework. Code is avaliable: https://github.com/alipay/PainlessInferenceAcceleration.

arxiv情報

著者 Yao Zhao,Zhitian Xie,Chenyi Zhuang,Jinjie Gu
発行日 2024-01-04 06:33:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG パーマリンク