KunServe: Efficient Parameter-centric Memory Management for LLM Serving

要約

GPUのクラスターを使用してLLMSを提供することは最近一般的であり、サービングシステムはアプリケーションで必要な厳格なレイテンシスロを満たす必要があります。
ただし、LLMサービングのステートフルな性質には、限られたGPUメモリに巨大な状態(つまり、KVCache)を維持する必要があります。
現実世界のワークロードのスパイクでは、GPUメモリを簡単にスロットすることができ、KVCacheが回収されるのを待つことで導入されたキューイングにより、数桁高い応答レイテンシをもたらします。
以前のKVCache中心のアプローチは、KVCacheを落としたり、移行したり、交換したりすることにより、負荷のスロットリングを処理します。
これらのメソッドは、リクエストがまだキューになっているため、十分なメモリをすばやくリリースできません。
このペーパーでは、モデルパラメーターがLLMSのGPU全体で一般的に複製されるという気付かれていない観察に基づいて、リクエストに対して即座にフリーメモリを選択的にドロップすることにより、スロットを処理するための最初のパラメーター中心のアプローチを提案します。
追加のメモリを使用すると、すべてのリクエストをキューイングなしで大きなバッチで提供できます。
パラメーター中心のアプローチを正しく効率的にするために、パイプラインの並列性を使用してパラメーターの完全なコピーを使用してGPUのリクエストを協力して実行し、不必要な協力なしに適切なドロッププランを導き出します。
また、ドロップ下のリクエストの実行パターンとのパイプラインの並列性により、パフォーマンスのオーバーヘッドを最小限に抑えるための手法を設計します。
評価によると、{\ sys}は、Llumnix、VLLM、知覚容疑を含む最先端のシステムと比較して、{\ sys}がリクエストのテールTTFTを最大72.2回減少させることを示しています。

要約(オリジナル)

Serving LLMs with a cluster of GPUs is common nowadays, where the serving system must meet strict latency SLOs required by applications. However, the stateful nature of LLM serving requires maintaining huge states (i.e., KVCache) in limited GPU memory. Under spikes in real-world workloads, GPU memory can be easily throttled, leading to orders of magnitude higher response latency due to queuing introduced by waiting for KVCache to be reclaimed. Prior KVCache-centric approaches handle load throttling by dropping, migrating, or swapping KVCache. These methods fail to release sufficient memory quickly with requests still queued. This paper proposes the first parameter-centric approach to handling throttling by selectively dropping replicated parameters to instantly free memory for requests, based on an unnoticed observation that model parameters are commonly replicated across GPUs for serving LLMs. With additional memory, all requests can be served with a larger batch without queuing. To make the parameter-centric approach correct and efficient, we cooperatively execute requests on GPUs with a complete copy of parameters using pipeline parallelism, and derive an appropriate drop plan without unnecessary cooperation. We also design techniques to minimize the performance overhead due to pipeline parallelism with the execution patterns of requests under drop. Evaluations show that {\sys} reduces the tail TTFT of requests under throttling by up to 72.2 times compared to the state-of-the-art systems including Llumnix, vLLM and InferCept.

arxiv情報

著者 Rongxin Cheng,Yuxin Lai,Xingda Wei,Rong Chen,Haibo Chen
発行日 2025-05-20 16:15:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC | KunServe: Efficient Parameter-centric Memory Management for LLM Serving はコメントを受け付けていません

EquiBench: Benchmarking Large Language Models’ Understanding of Program Semantics via Equivalence Checking

要約

大規模な言語モデル(LLM)がコード関連のタスクに不可欠になると、中心的な問題が現れます。LLMはプログラム実行セマンティクスを本当に理解していますか?
等価チェックを通じてLLMを評価するための新しいベンチマークであるEquibenchを紹介します。つまり、2つのプログラムがすべての可能な入力に対して同一の出力を生成するかどうかを判断します。
以前のコード生成ベンチマークとは異なり、このタスクはコード実行セマンティクスに関するモデルの理解を直接テストします。
Equibenchは、4つの言語にわたる2400のプログラムペアと6つのカテゴリで構成されています。
これらのペアは、プログラム分析、コンパイラスケジューリング、および超最適化を通じて生成され、自信の高いラベル、非自明の難易度、および完全な自動化を確保します。
変換は、構文の編集、構造的修正、およびアルゴリズムの変化に及び、幅広いセマンティックバリエーションをカバーしています。
19の最先端のLLMを評価し、最も挑戦的なカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインをわずかに上回っていることがわかります。
さらなる分析により、モデルは、実行セマンティクスよりも堅牢な推論を示すのではなく、構文の類似性に依存することが多く、基本的な制限を強調していることが明らかになりました。

要約(オリジナル)

As large language models (LLMs) become integral to code-related tasks, a central question emerges: do LLMs truly understand program execution semantics? We introduce EquiBench, a new benchmark for evaluating LLMs through equivalence checking, i.e., determining whether two programs produce identical outputs for all possible inputs. Unlike prior code generation benchmarks, this task directly tests a model’s understanding of code execution semantics. EquiBench consists of 2400 program pairs across four languages and six categories. These pairs are generated through program analysis, compiler scheduling, and superoptimization, ensuring high-confidence labels, nontrivial difficulty, and full automation. The transformations span syntactic edits, structural modifications, and algorithmic changes, covering a broad spectrum of semantic variation. We evaluate 19 state-of-the-art LLMs and find that in the most challenging categories, the best accuracies are 63.8% and 76.2%, only modestly above the 50% random baseline. Further analysis reveals that models often rely on syntactic similarity rather than exhibiting robust reasoning over execution semantics, highlighting fundamental limitations.

arxiv情報

著者 Anjiang Wei,Jiannan Cao,Ran Li,Hongyu Chen,Yuhui Zhang,Ziheng Wang,Yuan Liu,Thiago S. F. X. Teixeira,Diyi Yang,Ke Wang,Alex Aiken
発行日 2025-05-20 16:19:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.PL, cs.SE | EquiBench: Benchmarking Large Language Models’ Understanding of Program Semantics via Equivalence Checking はコメントを受け付けていません

SSPS: Self-Supervised Positive Sampling for Robust Self-Supervised Speaker Verification

要約

自己学習学習(SSL)は、スピーカー検証(SV)のかなりの進歩をもたらしました。
標準のフレームワークでは、同時の正のサンプリングとデータの高度化を使用して、同じスピーカーのアンカー陽性ペアを生成します。
この戦略は、主にアンカーとポジティブで共有される記録条件からチャネル情報をエンコードするため、これは大きな制限です。
このボトルネックに対処するための新しい肯定的なサンプリング手法を提案します:自己教師の肯定的なサンプリング(SSP)。
特定のアンカーについて、SSPSは、クラスタリング割り当てと正の埋め込みのメモリキューを使用して、潜在空間で、同じスピーカーのアイデンティティの適切な正、つまり異なる記録条件を見つけることを目指しています。
SSPSは、SIMCLRとDINOの両方のSVパフォーマンスを向上させ、2.57%と2.53%のEERに達し、VoxceleB1-OのSOTA SSLメソッドを上回ります。
特に、SIMCLR-SSPSは、スピーカー内の分散を下げることにより58%のEER削減を達成し、Dino-SSPSに匹敵するパフォーマンスを提供します。

要約(オリジナル)

Self-Supervised Learning (SSL) has led to considerable progress in Speaker Verification (SV). The standard framework uses same-utterance positive sampling and data-augmentation to generate anchor-positive pairs of the same speaker. This is a major limitation, as this strategy primarily encodes channel information from the recording condition, shared by the anchor and positive. We propose a new positive sampling technique to address this bottleneck: Self-Supervised Positive Sampling (SSPS). For a given anchor, SSPS aims to find an appropriate positive, i.e., of the same speaker identity but a different recording condition, in the latent space using clustering assignments and a memory queue of positive embeddings. SSPS improves SV performance for both SimCLR and DINO, reaching 2.57% and 2.53% EER, outperforming SOTA SSL methods on VoxCeleb1-O. In particular, SimCLR-SSPS achieves a 58% EER reduction by lowering intra-speaker variance, providing comparable performance to DINO-SSPS.

arxiv情報

著者 Theo Lepage,Reda Dehak
発行日 2025-05-20 16:19:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | SSPS: Self-Supervised Positive Sampling for Robust Self-Supervised Speaker Verification はコメントを受け付けていません

Can LLMs be Good Graph Judge for Knowledge Graph Construction?

要約

実際のシナリオでは、情報検索(IR)システムから取得したデータのほとんどは構造化されていません。
自然言語文を構造化された知識グラフ(kg)に変換することは依然として重要な課題です。
既存のKG構造方法に関して3つの制限を特定しました。(1)実際のドキュメントには大量のノイズがある可能性があり、乱雑な情報を抽出する可能性があります。
(2)ナイーブLLMは通常、いくつかのドメイン固有のドキュメントから不正確な知識を抽出します。
(3)LLMを直接使用してKGを構築する場合、幻覚現象を見落とすことはできません。
この論文では、前述の課題に対処するためのKG構造フレームワークである\ textBf {graphjudge}を提案します。
このフレームワークでは、ドキュメント内のノイズ情報を排除するためのエンティティ中心の戦略を設計しました。
そして、生成されたKGの品質を最終的に向上させるために、グラフ裁判官としてLLMを微調整しました。
2つの一般的および1つのドメイン固有のテキストグラフペアデータセットで実施された実験は、強力な一般化能力を備えたさまざまなベースライン方法に対する最先端のパフォーマンスを示しています。
私たちのコードは、\ href {https://github.com/hhy-huang/graphjudge} {https://github.com/hhy-huang/graphjudge}で入手できます。

要約(オリジナル)

In real-world scenarios, most of the data obtained from the information retrieval (IR) system is unstructured. Converting natural language sentences into structured Knowledge Graphs (KGs) remains a critical challenge. We identified three limitations with respect to existing KG construction methods: (1) There could be a large amount of noise in real-world documents, which could result in extracting messy information. (2) Naive LLMs usually extract inaccurate knowledge from some domain-specific documents. (3) Hallucination phenomenon cannot be overlooked when directly using LLMs to construct KGs. In this paper, we propose \textbf{GraphJudge}, a KG construction framework to address the aforementioned challenges. In this framework, we designed an entity-centric strategy to eliminate the noise information in the documents. And we fine-tuned a LLM as a graph judge to finally enhance the quality of generated KGs. Experiments conducted on two general and one domain-specific text-graph pair datasets demonstrate state-of-the-art performance against various baseline methods with strong generalization abilities. Our code is available at \href{https://github.com/hhy-huang/GraphJudge}{https://github.com/hhy-huang/GraphJudge}.

arxiv情報

著者 Haoyu Huang,Chong Chen,Zeang Sheng,Yang Li,Wentao Zhang
発行日 2025-05-20 16:24:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Can LLMs be Good Graph Judge for Knowledge Graph Construction? はコメントを受け付けていません

Bellman operator convergence enhancements in reinforcement learning algorithms

要約

このペーパーでは、国家、行動、および政策スペースの構造に焦点を当てることにより、強化学習の研究(RL)のトポロジカル基礎をレビューします。
まず、RLの問題を表現するための基盤を形成する完全なメトリックスペースなどの重要な数学的概念を思い出すことから始めます。
バナッハの収縮原理を活用することにより、バナッハの固定点定理がRLアルゴリズムの収束と、バナッハ空間で演算子として表現されたベルマンオペレーターがこの収束を確実にする方法を説明する方法を説明します。
この作業は、理論的数学と実用的なアルゴリズム設計の間の橋渡しとして機能し、RLの効率を高めるための新しいアプローチを提供します。
特に、Bellmanオペレーターの代替製剤を調査し、MountainCar、Cartpole、Acrobotなどの標準的なRL環境での収束率とパフォーマンスの改善への影響を実証します。
私たちの調査結果は、RLのより深い数学的理解が、意思決定の問題のためにより効果的なアルゴリズムにつながる方法を強調しています。

要約(オリジナル)

This paper reviews the topological groundwork for the study of reinforcement learning (RL) by focusing on the structure of state, action, and policy spaces. We begin by recalling key mathematical concepts such as complete metric spaces, which form the foundation for expressing RL problems. By leveraging the Banach contraction principle, we illustrate how the Banach fixed-point theorem explains the convergence of RL algorithms and how Bellman operators, expressed as operators on Banach spaces, ensure this convergence. The work serves as a bridge between theoretical mathematics and practical algorithm design, offering new approaches to enhance the efficiency of RL. In particular, we investigate alternative formulations of Bellman operators and demonstrate their impact on improving convergence rates and performance in standard RL environments such as MountainCar, CartPole, and Acrobot. Our findings highlight how a deeper mathematical understanding of RL can lead to more effective algorithms for decision-making problems.

arxiv情報

著者 David Krame Kadurha,Domini Jocema Leko Moutouo,Yae Ulrich Gaba
発行日 2025-05-20 16:24:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Bellman operator convergence enhancements in reinforcement learning algorithms はコメントを受け付けていません

KIPPO: Koopman-Inspired Proximal Policy Optimization

要約

強化学習(RL)はさまざまなドメインで大きな進歩を遂げており、近位政策最適化(PPO)などのポリシーグラデーション方法は、パフォーマンス、トレーニングの安定性、計算効率のバランスにより人気を博しています。
これらの方法は、勾配ベースの更新を通じてポリシーを直接最適化します。
ただし、複雑で非線形のダイナミクスを備えた環境の効果的な制御ポリシーの開発は依然として課題です。
勾配推定値と非凸の最適化環境の高いばらつきは、しばしば不安定な学習軌跡につながります。
Koopmanオペレーター理論は、測定関数の高次元空間に作用する無限の次元線形演算子を介して非線形システムを研究するための強力なフレームワークとして浮上しています。
非線形の対応物とは対照的に、線形システムはよりシンプルで、より予測可能で、分析が容易です。
この論文では、Koopmanにインスパイアされた近位政策最適化(KIPPO)を紹介します。これは、効果的な政策学習のための重要な機能を保持しながら、基礎となるシステムのダイナミクスのほぼ線形潜在スペース表現を学習します。
これは、コアポリシーまたは値関数のアーキテクチャを変更せずにベースラインポリシー最適化アルゴリズムに追加できるKoopman-Approximation Auxiliary Networkを通じて達成されます。
広範な実験結果は、PPOベースラインで一貫した改善を示し、パフォーマンスは6〜60%増加し、さまざまな連続制御タスクで評価されると変動性を最大91%減らします。

要約(オリジナル)

Reinforcement Learning (RL) has made significant strides in various domains, and policy gradient methods like Proximal Policy Optimization (PPO) have gained popularity due to their balance in performance, training stability, and computational efficiency. These methods directly optimize policies through gradient-based updates. However, developing effective control policies for environments with complex and non-linear dynamics remains a challenge. High variance in gradient estimates and non-convex optimization landscapes often lead to unstable learning trajectories. Koopman Operator Theory has emerged as a powerful framework for studying non-linear systems through an infinite-dimensional linear operator that acts on a higher-dimensional space of measurement functions. In contrast with their non-linear counterparts, linear systems are simpler, more predictable, and easier to analyze. In this paper, we present Koopman-Inspired Proximal Policy Optimization (KIPPO), which learns an approximately linear latent-space representation of the underlying system’s dynamics while retaining essential features for effective policy learning. This is achieved through a Koopman-approximation auxiliary network that can be added to the baseline policy optimization algorithms without altering the architecture of the core policy or value function. Extensive experimental results demonstrate consistent improvements over the PPO baseline with 6-60% increased performance while reducing variability by up to 91% when evaluated on various continuous control tasks.

arxiv情報

著者 Andrei Cozma,Landon Harris,Hairong Qi
発行日 2025-05-20 16:25:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | KIPPO: Koopman-Inspired Proximal Policy Optimization はコメントを受け付けていません

CoLA: Compute-Efficient Pre-Training of LLMs via Low-Rank Activation

要約

フルサイズのMLPと注目の投影層は、大規模な言語モデル(LLM)の途方もないモデルサイズを導入し、トレーニング前の段階で計算リソースの非常に厳しいニーズを課します。
ただし、事前に訓練されたLLMの活性化が低ランク特性を示すことを経験的に観察します。
このような観察に動機付けられたColaとそのメモリ効率の高い実装であるCola-Mは、これらのフルサイズの層を、トレーニング全体で自然に低ランクの活性化を強制する計算効率の高い自動エンコーダーに置き換えることを提案します。
この基本的なアーキテクチャの変化は、活性化の冗長性を排除し、モデルの容量とトレーニング効率を大幅に向上させます。
6,000万から70億パラメーターのLlamaモデルでの実験は、COLAがコンピューティングコストを$ \ BF 2 \ PMB {\ Times} $削減し、フルランクレベルのパフォーマンスを維持しながら$ \ BF 1.86 \ PMB {\ Times} $のトレーニングスループットを改善することを示しています。
COLA-Mは、スループットを犠牲にすることなくメモリコストをさらに絞り、集合的に優れたパラメーター、コンピューティング、およびメモリ効率を備えたトレーニング前のアプローチを提供します。
生成されたLLMは、$ \ bf 2 \ pmb {\ times} $も小さく、リソース制約のプラットフォームでメモリコストを削減するより速い推論を可能にします。

要約(オリジナル)

The full-size MLPs and the projection layers in attention introduce tremendous model sizes of large language models (LLMs), imposing extremely demanding needs of computational resources in the pre-training stage. However, we empirically observe that the activations of pre-trained LLMs exhibit low-rank property. Motivated by such observations, we propose CoLA and its memory-efficient implementation, CoLA-M, to replace these full-size layers with compute-efficient auto-encoders that naturally enforce low-rank activations throughout training. This fundamental architectural change eliminates the activation redundancy and significantly boosts model capacity and training efficiency. Experiments on LLaMA models with 60 million to 7 billion parameters show that CoLA reduces the computing cost by $\bf 2\pmb{\times}$ and improves training throughput by $\bf 1.86\pmb{\times}$ while maintaining full-rank level performance. CoLA-M further squeezes memory cost without sacrificing throughput, offering a pre-training approach with collectively superior parameter, computing, and memory efficiency. The LLMs produced are also $\bf 2\pmb{\times}$ smaller, enabling faster inference with lower memory cost on resource-constrained platforms.

arxiv情報

著者 Ziyue Liu,Ruijie Zhang,Zhengyang Wang,Zi Yang,Paul Hovland,Bogdan Nicolae,Franck Cappello,Zheng Zhang
発行日 2025-05-20 16:27:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | CoLA: Compute-Efficient Pre-Training of LLMs via Low-Rank Activation はコメントを受け付けていません

Agent Context Protocols Enhance Collective Inference

要約

AIエージェントは、コーディング、推論、マルチモーダルの理解などの複雑なタスクにますます熟達しています。
ただし、ジェネラリストシステムの構築には、個々のエージェントを超えて集合的な推論に移行する必要があります。これは、多様なタスク専門的なエージェントを備えたマルチエージェントシステムが構造化されたコミュニケーションとコラボレーションを通じて互いに補完するパラダイムです。
今日、調整は通常、複雑な相互作用を制限し、ドメイン固有のエージェントとの相互運用性を妨げる不正確なアドホックな自然言語で処理されます。
エージェントコンテキストプロトコル(ACPS):エージェントとエージェントのコミュニケーション、調整、およびエラー処理のための構造プロトコルのドメインおよびエージェントに依存しないファミリーを紹介します。
ACPは(i)永続的な実行ブループリント – 中間エージェント出力を保存する明示的な依存性グラフ – (ii)標準化されたメッセージスキーマを使用して、堅牢で断層耐性の多因子集団推論を可能にします。
ACPを搭載したジェネラリストシステムは、最先端のパフォーマンスに到達します。長距離のWeb支援とクラス最高のマルチモーダル技術レポートのアシスタントベンチの28.3%の精度、人間の評価における商用AIシステムを上回ります。
ACPは非常にモジュール式で拡張可能であるため、実務家は最大のジェネラリストエージェントを迅速に構築できます。

要約(オリジナル)

AI agents have become increasingly adept at complex tasks such as coding, reasoning, and multimodal understanding. However, building generalist systems requires moving beyond individual agents to collective inference — a paradigm where multi-agent systems with diverse, task-specialized agents complement one another through structured communication and collaboration. Today, coordination is usually handled with imprecise, ad-hoc natural language, which limits complex interaction and hinders interoperability with domain-specific agents. We introduce Agent context protocols (ACPs): a domain- and agent-agnostic family of structured protocols for agent-agent communication, coordination, and error handling. ACPs combine (i) persistent execution blueprints — explicit dependency graphs that store intermediate agent outputs — with (ii) standardized message schemas, enabling robust and fault-tolerant multi-agent collective inference. ACP-powered generalist systems reach state-of-the-art performance: 28.3 % accuracy on AssistantBench for long-horizon web assistance and best-in-class multimodal technical reports, outperforming commercial AI systems in human evaluation. ACPs are highly modular and extensible, allowing practitioners to build top-tier generalist agents quickly.

arxiv情報

著者 Devansh Bhardwaj,Arjun Beniwal,Shreyas Chaudhari,Ashwin Kalyan,Tanmay Rajpurohit,Karthik R. Narasimhan,Ameet Deshpande,Vishvak Murahari
発行日 2025-05-20 16:28:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Agent Context Protocols Enhance Collective Inference はコメントを受け付けていません

Exploring the Effect of Explanation Content and Format on User Comprehension and Trust in Healthcare

要約

ヘルスケア用のAI駆動型ツールは、医療従事者や患者にとって潜在的に有益であると広く認められています。
がんリスク予測のためのQCANCER回帰ツール。
ただし、これらのツールを信頼するためには、説明が補足する必要があります。
QCancerの予測を説明する際に、説明のコンテンツとフォーマットがユーザーの理解と信頼にどのように影響するかを調べます。
コンテンツに関しては、ShapとOcclusion-1を展開します。
形式に関しては、従来、チャート(SC)およびオクルージョン-1の説明として、チャート(OC)、およびテキスト(OT)としてのSHAP説明を提示します。
私たちは、2セットの利害関係者を使用して実験を実施します。一般大衆(患者を代表する)と医学生(医療従事者を代表する)。
私たちの実験では、コンテンツに基づいたSHAP説明よりも、より高い主観的理解と閉塞1に対する信頼が示されました。
ただし、フォーマットを制御する場合、SCを上回ったOTのみが、この傾向がテキストの好みによって促進されることを示唆しています。
他の調査結果は、コンテンツではなく説明形式が多くの場合、重要な要因であると裏付けました。

要約(オリジナル)

AI-driven tools for healthcare are widely acknowledged as potentially beneficial to health practitioners and patients, e.g. the QCancer regression tool for cancer risk prediction. However, for these tools to be trusted, they need to be supplemented with explanations. We examine how explanations’ content and format affect user comprehension and trust when explaining QCancer’s predictions. Regarding content, we deploy SHAP and Occlusion-1. Regarding format, we present SHAP explanations, conventionally, as charts (SC) and Occlusion-1 explanations as charts (OC) as well as text (OT), to which their simpler nature lends itself. We conduct experiments with two sets of stakeholders: the general public (representing patients) and medical students (representing healthcare practitioners). Our experiments showed higher subjective comprehension and trust for Occlusion-1 over SHAP explanations based on content. However, when controlling for format, only OT outperformed SC, suggesting this trend is driven by preferences for text. Other findings corroborated that explanation format, rather than content, is often the critical factor.

arxiv情報

著者 Antonio Rago,Bence Palfi,Purin Sukpanichnant,Hannibal Nabli,Kavyesh Vivek,Olga Kostopoulou,James Kinross,Francesca Toni
発行日 2025-05-20 16:29:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Exploring the Effect of Explanation Content and Format on User Comprehension and Trust in Healthcare はコメントを受け付けていません

Online Scheduling for LLM Inference with KV Cache Constraints

要約

トレーニングされたモデルがユーザープロンプトに応じて一度に1つの単語を生成する大規模な言語モデル(LLM)推論は、レイテンシとリソースの使用率を最適化するための効率的なスケジューリングを必要とする計算的に集中的なプロセスです。
LLM推論の重要な課題は、冗長計算を削減しますが、メモリの制約を導入するキー値(KV)キャッシュの管理です。
この作業では、KVキャッシュの制約とのLLM推論を理論的にモデル化し、KVキャッシュのメモリを効果的に管理しながら推論の遅延を最小限に抑える新しいバッチおよびスケジューリングアルゴリズムを提案します。
より具体的には、次の貢献をします。
まず、LLM推論でのスケジューリングのためのオンラインアルゴリズムのパフォーマンスを評価するために、完全な将来の情報の下で最小総推論潜時を計算する整数プログラムとして定式化された後知恵最適ベンチマークを導入します。
第二に、到着プロセスが任意である場合、決定論的なオンラインアルゴリズムが一定の競争比を達成できないことを証明します。
第三に、整数プログラムを大規模に解決する計算上の扱いやすさに動機付けられ、多項式時間オンラインスケジューリングアルゴリズムを提案し、特定の条件下で一定の競争比を達成できることを示します。
また、アルゴリズムの強力な経験的パフォーマンスを、合成データセットの後知恵最適と比較することで実証します。
最後に、A100 GPUのLLAMA2-70Bモデルをシミュレートする現実世界の公開LLM推論データセットで経験的評価を実施し、アルゴリズムがベンチマークアルゴリズムを大幅に上回ることを示します。
全体として、私たちの結果は、より持続可能で費用対効果の高いLLM展開への道を提供します。

要約(オリジナル)

Large Language Model (LLM) inference, where a trained model generates text one word at a time in response to user prompts, is a computationally intensive process requiring efficient scheduling to optimize latency and resource utilization. A key challenge in LLM inference is the management of the Key-Value (KV) cache, which reduces redundant computations but introduces memory constraints. In this work, we model LLM inference with KV cache constraints theoretically and propose a novel batching and scheduling algorithm that minimizes inference latency while effectively managing the KV cache’s memory. More specifically, we make the following contributions. First, to evaluate the performance of online algorithms for scheduling in LLM inference, we introduce a hindsight optimal benchmark, formulated as an integer program that computes the minimum total inference latency under full future information. Second, we prove that no deterministic online algorithm can achieve a constant competitive ratio when the arrival process is arbitrary. Third, motivated by the computational intractability of solving the integer program at scale, we propose a polynomial-time online scheduling algorithm and show that under certain conditions it can achieve a constant competitive ratio. We also demonstrate our algorithm’s strong empirical performance by comparing it to the hindsight optimal in a synthetic dataset. Finally, we conduct empirical evaluations on a real-world public LLM inference dataset, simulating the Llama2-70B model on A100 GPUs, and show that our algorithm significantly outperforms the benchmark algorithms. Overall, our results offer a path toward more sustainable and cost-effective LLM deployment.

arxiv情報

著者 Patrick Jaillet,Jiashuo Jiang,Konstantina Mellou,Marco Molinaro,Chara Podimata,Zijie Zhou
発行日 2025-05-20 16:29:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC | Online Scheduling for LLM Inference with KV Cache Constraints はコメントを受け付けていません