要約
大規模言語モデル (LLM) は現代の自然言語処理の中心であり、さまざまなタスクで優れたパフォーマンスを提供します。
ただし、特に DRAM 容量が限られているデバイスでは、かなりの計算能力とメモリ要件が課題となります。
このペーパーでは、モデル パラメータをフラッシュ メモリに保存し、オンデマンドで DRAM に取り込むことで、利用可能な DRAM 容量を超える LLM を効率的に実行するという課題に取り組みます。
私たちの手法には、フラッシュ メモリの特性を考慮した推論コスト モデルの構築が含まれており、これにより、フラッシュから転送されるデータ量の削減と、より大きく連続したチャンクでのデータの読み取りという 2 つの重要な領域での最適化が可能になります。
このハードウェア情報に基づいたフレームワーク内で、2 つの主要なテクニックを紹介します。
まず、「ウィンドウ化」により、以前にアクティブ化されたニューロンを再利用することでデータ転送が戦略的に削減され、2 番目に、フラッシュ メモリのシーケンシャル データ アクセスの強度に合わせて調整された「行と列のバンドル」により、フラッシュ メモリから読み取られるデータ チャンクのサイズが増加します。
これらの方法を組み合わせると、利用可能な DRAM の最大 2 倍のサイズでモデルを実行できるようになり、CPU と GPU での単純な読み込みアプローチと比較して、推論速度がそれぞれ 4 ~ 5 倍および 20 ~ 25 倍向上します。
スパース性認識、コンテキスト適応型読み込み、およびハードウェア指向設計の統合により、メモリが限られたデバイス上で LLM を効果的に推論するための道が開かれます。
要約(オリジナル)
Large language models (LLMs) are central to modern natural language processing, delivering exceptional performance in various tasks. However, their substantial computational and memory requirements present challenges, especially for devices with limited DRAM capacity. This paper tackles the challenge of efficiently running LLMs that exceed the available DRAM capacity by storing the model parameters in flash memory, but bringing them on demand to DRAM. Our method involves constructing an inference cost model that takes into account the characteristics of flash memory, guiding us to optimize in two critical areas: reducing the volume of data transferred from flash and reading data in larger, more contiguous chunks. Within this hardware-informed framework, we introduce two principal techniques. First, ‘windowing’ strategically reduces data transfer by reusing previously activated neurons, and second, ‘row-column bundling’, tailored to the sequential data access strengths of flash memory, increases the size of data chunks read from flash memory. These methods collectively enable running models up to twice the size of the available DRAM, with a 4-5x and 20-25x increase in inference speed compared to naive loading approaches in CPU and GPU, respectively. Our integration of sparsity awareness, context-adaptive loading, and a hardware-oriented design paves the way for effective inference of LLMs on devices with limited memory.
arxiv情報
著者 | Keivan Alizadeh,Iman Mirzadeh,Dmitry Belenko,Karen Khatamifard,Minsik Cho,Carlo C Del Mundo,Mohammad Rastegari,Mehrdad Farajtabar |
発行日 | 2024-01-04 22:28:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google