A Survey on Efficient Inference for Large Language Models

要約

大規模言語モデル (LLM) は、さまざまなタスクにわたって優れたパフォーマンスを発揮するため、幅広い注目を集めています。
ただし、LLM 推論には大量の計算要件とメモリ要件があるため、リソースに制約のあるシナリオでの展開には課題が生じます。
この分野の努力は、LLM 推論の効率を高めることを目的とした技術の開発に向けられてきました。
このペーパーでは、効率的な LLM 推論に関する既存の文献の包括的な調査を紹介します。
まず、非効率的な LLM 推論の主な原因、つまり、大きなモデル サイズ、二次複雑さのアテンション演算、および自己回帰復号化アプローチを分析することから始めます。
次に、現在の文献をデータレベル、モデルレベル、システムレベルの最適化に整理する包括的な分類法を導入します。
さらに、この論文には、定量的な洞察を提供するために、重要なサブフィールド内の代表的な方法に関する比較実験が含まれています。
最後になりましたが、ここではいくつかの知識の概要を示し、今後の研究の方向性について説明します。

要約(オリジナル)

Large Language Models (LLMs) have attracted extensive attention due to their remarkable performance across various tasks. However, the substantial computational and memory requirements of LLM inference pose challenges for deployment in resource-constrained scenarios. Efforts within the field have been directed towards developing techniques aimed at enhancing the efficiency of LLM inference. This paper presents a comprehensive survey of the existing literature on efficient LLM inference. We start by analyzing the primary causes of the inefficient LLM inference, i.e., the large model size, the quadratic-complexity attention operation, and the auto-regressive decoding approach. Then, we introduce a comprehensive taxonomy that organizes the current literature into data-level, model-level, and system-level optimization. Moreover, the paper includes comparative experiments on representative methods within critical sub-fields to provide quantitative insights. Last but not least, we provide some knowledge summary and discuss future research directions.

arxiv情報

著者 Zixuan Zhou,Xuefei Ning,Ke Hong,Tianyu Fu,Jiaming Xu,Shiyao Li,Yuming Lou,Luning Wang,Zhihang Yuan,Xiuhong Li,Shengen Yan,Guohao Dai,Xiao-Ping Zhang,Yuhan Dong,Yu Wang
発行日 2024-04-22 15:53:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク