要約
検索拡張言語モデル (RALM) は、外部データベースからコンテキスト固有の知識を取得することにより、生成言語モデルを拡張します。
この戦略により、より小さなモデルであっても優れたテキスト生成品質が促進され、計算要求が桁違いに削減されます。
ただし、RALM は、(a) LM 推論と取得の間の多様なワークロード特性、(b) モデル サイズ、データベース サイズ、取得頻度などの異なる RALM 構成に対するさまざまなシステム要件とボトルネックにより、独特のシステム設計の課題を引き起こします。
私たちは、LM アクセラレータと検索アクセラレータの両方を分離されたアーキテクチャに統合する異種アクセラレータ システムである Chameleon を提案します。
異質性により、LM 推論と取得の両方の効率的な加速が保証され、アクセラレータの細分化により、システムは両方のタイプのアクセラレータを独立して拡張して、多様な RALM 要件を満たすことができます。
当社の Chameleon プロトタイプは、FPGA に取得アクセラレータを実装し、CPU サーバーがネットワーク上でこれらのアクセラレータを調整し、LM 推論を GPU に割り当てます。
CPU ベースおよび CPU-GPU ベクトル検索システムと比較して、Chameleon は最大 23.72 倍の速度向上と 26.2 倍のエネルギー効率を実現します。
さまざまな RALM で評価したところ、Chameleon は、ハイブリッド CPU-GPU アーキテクチャと比較して、レイテンシーが最大 2.16 倍削減され、スループットが 3.18 倍高速化されました。
これらの有望な結果は、アクセラレータの不均一性と分散を将来の RALM システムに導入するための道を開きます。
要約(オリジナル)
A Retrieval-Augmented Language Model (RALM) augments a generative language model by retrieving context-specific knowledge from an external database. This strategy facilitates impressive text generation quality even with smaller models, thus reducing orders of magnitude of computational demands. However, RALMs introduce unique system design challenges due to (a) the diverse workload characteristics between LM inference and retrieval and (b) the various system requirements and bottlenecks for different RALM configurations such as model sizes, database sizes, and retrieval frequencies. We propose Chameleon, a heterogeneous accelerator system that integrates both LM and retrieval accelerators in a disaggregated architecture. The heterogeneity ensures efficient acceleration of both LM inference and retrieval, while the accelerator disaggregation enables the system to independently scale both types of accelerators to fulfill diverse RALM requirements. Our Chameleon prototype implements retrieval accelerators on FPGAs and assigns LM inference to GPUs, with a CPU server orchestrating these accelerators over the network. Compared to CPU-based and CPU-GPU vector search systems, Chameleon achieves up to 23.72x speedup and 26.2x energy efficiency. Evaluated on various RALMs, Chameleon exhibits up to 2.16x reduction in latency and 3.18x speedup in throughput compared to the hybrid CPU-GPU architecture. These promising results pave the way for bringing accelerator heterogeneity and disaggregation into future RALM systems.
arxiv情報
著者 | Wenqi Jiang,Marco Zeller,Roger Waleffe,Torsten Hoefler,Gustavo Alonso |
発行日 | 2023-11-09 18:23:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google