Not All Layers of LLMs Are Necessary During Inference

要約

パラメータの数が多いため、大規模言語モデル (LLM) の推論フェーズではリソースが大量に消費されます。
ただし、LLM に送信されるすべてのリクエストの処理が同じように難しいわけではありません。
分析を通じて、一部のタスクでは、LLM がいくつかの中間層での最終出力に匹敵する結果を達成できることがわかりました。
つまり、推論中に LLM のすべての層が必要なわけではありません。
推論された結果が最終結果 (すべての層を評価することによって生成される) とどの層で一致するかを予測できれば、推論コストを大幅に削減できる可能性があります。
この目的を達成するために、入力インスタンスの推論プロセスを適応的に終了する、AdaInfer という名前のシンプルかつ効果的なアルゴリズムを提案します。
AdaInfer は、簡単に取得できる統計機能と SVM などの古典的な分類器に依存しています。
Llama2 シリーズや OPT などのよく知られた LLM での実験では、AdaInfer がパフォーマンスをほとんど低下させることなく (1% 未満)、平均 17.8% の枝刈り率、感情タスクでは最大 43% の枝刈り率を達成できることが示されています。
AdaInfer は LLM パラメーターを変更しないため、AdaInfer に組み込まれた LLM はタスク間での汎用性を維持します。

要約(オリジナル)

Due to the large number of parameters, the inference phase of Large Language Models (LLMs) is resource-intensive. However, not all requests posed to LLMs are equally difficult to handle. Through analysis, we show that for some tasks, LLMs can achieve results comparable to the final output at some intermediate layers. That is, not all layers of LLMs are necessary during inference. If we can predict at which layer the inferred results match the final results (produced by evaluating all layers), we could significantly reduce the inference cost. To this end, we propose a simple yet effective algorithm named AdaInfer to adaptively terminate the inference process for an input instance. AdaInfer relies on easily obtainable statistical features and classic classifiers like SVM. Experiments on well-known LLMs like the Llama2 series and OPT, show that AdaInfer can achieve an average of 17.8% pruning ratio, and up to 43% on sentiment tasks, with nearly no performance drop (<1%). Because AdaInfer does not alter LLM parameters, the LLMs incorporated with AdaInfer maintain generalizability across tasks.

arxiv情報

著者 Siqi Fan,Xin Jiang,Xiang Li,Xuying Meng,Peng Han,Shuo Shang,Aixin Sun,Yequan Wang,Zhongyuan Wang
発行日 2024-07-09 11:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク