要約
AlayAdbは、AlayAdB AIの大規模な言語モデル(LLMS)に対して効率的かつ効果的な長いコンテキスト推論のためにネイティブにアーキテクチャ化された最先端のベクトルデータベースシステムです。
具体的には、LLM推論システムからのKVキャッシュと注意計算を切り離し、それらを新しいベクトルデータベースシステムにカプセル化します。
サービスプロバイダー(MAAS)としてのモデルの場合、AlayAdbはハードウェアリソースを消費し、さまざまな種類のサービスレベル目標(SLO)を備えたさまざまなワークロード(SLO)でより高い世代の品質を提供します。
AlayAdBの核心は、LLM推論の注意計算とキャッシュ管理をクエリ処理手順に抽象化し、ネイティブクエリオプティマイザーを介してパフォーマンスを最適化することです。
この作業では、(i)業界パートナーからの3つのユースケース、および(ii)LLM推論ベンチマークに関する広範な実験結果を介してAlayadbの有効性を実証します。
要約(オリジナル)
AlayaDB is a cutting-edge vector database system natively architected for efficient and effective long-context inference for Large Language Models (LLMs) at AlayaDB AI. Specifically, it decouples the KV cache and attention computation from the LLM inference systems, and encapsulates them into a novel vector database system. For the Model as a Service providers (MaaS), AlayaDB consumes fewer hardware resources and offers higher generation quality for various workloads with different kinds of Service Level Objectives (SLOs), when comparing with the existing alternative solutions (e.g., KV cache disaggregation, retrieval-based sparse attention). The crux of AlayaDB is that it abstracts the attention computation and cache management for LLM inference into a query processing procedure, and optimizes the performance via a native query optimizer. In this work, we demonstrate the effectiveness of AlayaDB via (i) three use cases from our industry partners, and (ii) extensive experimental results on LLM inference benchmarks.
arxiv情報
著者 | Yangshen Deng,Zhengxin You,Long Xiang,Qilong Li,Peiqi Yuan,Zhaoyang Hong,Yitao Zheng,Wanting Li,Runzhong Li,Haotian Liu,Kyriakos Mouratidis,Man Lung Yiu,Huan Li,Qiaomu Shen,Rui Mao,Bo Tang |
発行日 | 2025-04-14 15:34:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google