Neuronal correlations shape the scaling behavior of memory capacity and nonlinear computational capability of recurrent neural networks

要約

貯水池コンピューティングは、機械学習から生物学的システムに至るまでのアプリケーションを備えた高い計算能力と迅速な学習を特徴とするリアルタイム情報処理の強力なフレームワークです。
この論文では、貯留層の再発性ニューラルネットワークの記憶容量が、読み出しニューロンの数とともに断面的にスケーリングすることを示します。
この現象を解明するために、メモリ容量を分析的に導き出すための理論的枠組みを開発し、メモリ容量の減衰成長をニューロン相関に起因します。
さらに、数値シミュレーションにより、メモリ容量がサブリニアになると、読み出しニューロンの数を増やすと、徐々に高い多項式順序で非線形処理が可能になることが明らかになります。
さらに、我々の理論的枠組みは、ニューロンの相関がメモリ能力だけでなく、非線形計算能力の連続的な成長も支配することを示唆しています。
私たちの調査結果は、スケーラブルで費用対効果の高い貯水池コンピューティングを設計するための基盤を確立し、ニューロン相関、線形記憶、および非線形処理の間の相互作用に関する新しい洞察を提供します。

要約(オリジナル)

Reservoir computing is a powerful framework for real-time information processing, characterized by its high computational ability and quick learning, with applications ranging from machine learning to biological systems. In this paper, we demonstrate that the memory capacity of a reservoir recurrent neural network scales sublinearly with the number of readout neurons. To elucidate this phenomenon, we develop a theoretical framework for analytically deriving memory capacity, attributing the decaying growth of memory capacity to neuronal correlations. In addition, numerical simulations reveal that once memory capacity becomes sublinear, increasing the number of readout neurons successively enables nonlinear processing at progressively higher polynomial orders. Furthermore, our theoretical framework suggests that neuronal correlations govern not only memory capacity but also the sequential growth of nonlinear computational capabilities. Our findings establish a foundation for designing scalable and cost-effective reservoir computing, providing novel insights into the interplay among neuronal correlations, linear memory, and nonlinear processing.

arxiv情報

著者 Shotaro Takasu,Toshio Aoyagi
発行日 2025-05-12 14:36:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG, q-bio.NC | Neuronal correlations shape the scaling behavior of memory capacity and nonlinear computational capability of recurrent neural networks はコメントを受け付けていません

Enhancing Federated Learning with Kolmogorov-Arnold Networks: A Comparative Study Across Diverse Aggregation Strategies

要約

シンプルでありながら強力なモデルとして、多層パーセプトロン(MLP)は、分類および回帰タスクで広く使用され続けています。
ただし、従来のMLPは、複雑なデータセットを扱う際に、ロードデータの非線形関係を効率的にキャプチャするのに苦労しています。
Kolmogorov-Arnoldの表現定理に触発されたKolmogorov-Arnold Networks(Kan)は、複雑な非線形関係のモデル化に有望な能力を示しています。
この研究では、Federated Learning(FL)フレームワーク内のKansのパフォーマンスを調査し、従来の多層パーセプトロンと比較します。
4つの多様なデータセットで実施された実験は、KANが精度、安定性、収束効率の点で一貫してMLPを上回ることを示しています。
Kansは、さまざまなクライアント数と非IIDデータ分布の下で顕著な堅牢性を示し、クライアントの不均一性が増加しても優れたパフォーマンスを維持します。
特に、KansはMLPSと比較して収束するためのコミュニケーションラウンドが少なくなり、FLシナリオでの効率を強調する必要があります。
さらに、Trimmed MeanとFedProxがKANパフォーマンスを最適化するのに最も効果的な複数のパラメーター集約戦略を評価します。
これらの調査結果は、カンズが、連邦学習タスクのMLPの堅牢でスケーラブルな代替品として確立され、分散型およびプライバシーを提供する環境へのアプリケーションへの道を開いています。

要約(オリジナル)

Multilayer Perceptron (MLP), as a simple yet powerful model, continues to be widely used in classification and regression tasks. However, traditional MLPs often struggle to efficiently capture nonlinear relationships in load data when dealing with complex datasets. Kolmogorov-Arnold Networks (KAN), inspired by the Kolmogorov-Arnold representation theorem, have shown promising capabilities in modeling complex nonlinear relationships. In this study, we explore the performance of KANs within federated learning (FL) frameworks and compare them to traditional Multilayer Perceptrons. Our experiments, conducted across four diverse datasets demonstrate that KANs consistently outperform MLPs in terms of accuracy, stability, and convergence efficiency. KANs exhibit remarkable robustness under varying client numbers and non-IID data distributions, maintaining superior performance even as client heterogeneity increases. Notably, KANs require fewer communication rounds to converge compared to MLPs, highlighting their efficiency in FL scenarios. Additionally, we evaluate multiple parameter aggregation strategies, with trimmed mean and FedProx emerging as the most effective for optimizing KAN performance. These findings establish KANs as a robust and scalable alternative to MLPs for federated learning tasks, paving the way for their application in decentralized and privacy-preserving environments.

arxiv情報

著者 Yizhou Ma,Zhuoqin Yang,Luis-Daniel Ibáñez
発行日 2025-05-12 14:56:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Enhancing Federated Learning with Kolmogorov-Arnold Networks: A Comparative Study Across Diverse Aggregation Strategies はコメントを受け付けていません

Generating Skyline Explanations for Graph Neural Networks

要約

このペーパーでは、説明可能性のための複数の測定を同時に最適化するグラフニューラルネットワークGNNSのサブグラフ説明を生成するための新しいアプローチを提案します。
既存のGNN説明方法は、多くの場合、忠実度や簡潔さなど、事前に定義された単一の説明可能性尺度を最適化するサブグラフ(「説明サブグラフ」と呼ばれる)を計算します。
これにより、GNNモデルの出力を明確にするための包括的な説明を提供できない偏った説明につながる可能性があります。
スカイラインの説明を紹介します。これは、複数の説明可能性測定を同時に最適化することにより、K説明サブグラフを特定することを目的とするGNN説明パラダイムです。
(1)スカイラインの説明生成を多目的最適化問題として定式化し、説明サブグラフのスカイラインセットを近似する説明を追求します。
スカイラインの説明生成の硬度を示します。
(2)興味のあるノードの隣人から戦略的にエッジを削除するタマネギのピールアプローチで効率的なアルゴリズムを設計し、証明可能な品質保証で解釈ドメインを探求する際に説明を徐々に改善します。
(3)説明を多様化するためのアルゴリズムをさらに開発して、より包括的な視点を提供します。
実際のグラフを使用して、アルゴリズムの有効性、効率、およびスケーラビリティを経験的に検証します。

要約(オリジナル)

This paper proposes a novel approach to generate subgraph explanations for graph neural networks GNNs that simultaneously optimize multiple measures for explainability. Existing GNN explanation methods often compute subgraphs (called “explanatory subgraphs”) that optimize a pre-defined, single explainability measure, such as fidelity or conciseness. This can lead to biased explanations that cannot provide a comprehensive explanation to clarify the output of GNN models. We introduce skyline explanation, a GNN explanation paradigm that aims to identify k explanatory subgraphs by simultaneously optimizing multiple explainability measures. (1) We formulate skyline explanation generation as a multi-objective optimization problem, and pursue explanations that approximate a skyline set of explanatory subgraphs. We show the hardness for skyline explanation generation. (2) We design efficient algorithms with an onion-peeling approach that strategically removes edges from neighbors of nodes of interests, and incrementally improves explanations as it explores an interpretation domain, with provable quality guarantees. (3) We further develop an algorithm to diversify explanations to provide more comprehensive perspectives. Using real-world graphs, we empirically verify the effectiveness, efficiency, and scalability of our algorithms.

arxiv情報

著者 Dazhuo Qiu,Haolai Che,Arijit Khan,Yinghui Wu
発行日 2025-05-12 15:05:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DB, cs.LG | Generating Skyline Explanations for Graph Neural Networks はコメントを受け付けていません

Certified Data Removal Under High-dimensional Settings

要約

Machine Ulearningは、トレーニングされたモデルからの特定のトレーニングデータの計算効率的な削除に焦点を当てており、完全な再訓練を必要とせずに忘れられたデータの影響が効果的に排除されるようにします。
低次元設定での進歩にもかかわらず、パラメーターの数\(p \)がサンプルサイズ\(n \)よりもはるかに少ない場合、高次元レジームに同様の理論的保証を拡張することは依然として困難です。
元のモデルパラメーターから始まり、ニュートンステップの理論ガイド付きシーケンスを実行する未学習アルゴリズムを提案します(\ {1,2 \} \)。
この更新の後、慎重にスケーリングされた等方性ラプラシアンノイズが推定に追加され、忘却データの(潜在的な)残差が完全に削除されるようにします。
固定比\(n/p \)を持つ\(n、p \ to \ infty \)の両方が、モデルの複雑さと有限の信号対雑音比の相互作用により、重要な理論的および計算的障害が生じることを示します。
最後に、低次元の設定とは異なり、単一のニュートンステップでは、高次元の問題で効果的に学習するには不十分であることを示しています。ただし、望ましい認定能力を実現するには2つのステップで十分です。
このアプローチの証明可能性と精度の主張をサポートするための数値実験を提供します。

要約(オリジナル)

Machine unlearning focuses on the computationally efficient removal of specific training data from trained models, ensuring that the influence of forgotten data is effectively eliminated without the need for full retraining. Despite advances in low-dimensional settings, where the number of parameters \( p \) is much smaller than the sample size \( n \), extending similar theoretical guarantees to high-dimensional regimes remains challenging. We propose an unlearning algorithm that starts from the original model parameters and performs a theory-guided sequence of Newton steps \( T \in \{ 1,2\}\). After this update, carefully scaled isotropic Laplacian noise is added to the estimate to ensure that any (potential) residual influence of forget data is completely removed. We show that when both \( n, p \to \infty \) with a fixed ratio \( n/p \), significant theoretical and computational obstacles arise due to the interplay between the complexity of the model and the finite signal-to-noise ratio. Finally, we show that, unlike in low-dimensional settings, a single Newton step is insufficient for effective unlearning in high-dimensional problems — however, two steps are enough to achieve the desired certifiebility. We provide numerical experiments to support the certifiability and accuracy claims of this approach.

arxiv情報

著者 Haolin Zou,Arnab Auddy,Yongchan Kwon,Kamiar Rahnama Rad,Arian Maleki
発行日 2025-05-12 15:11:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Certified Data Removal Under High-dimensional Settings はコメントを受け付けていません

Convergence of Time-Averaged Mean Field Gradient Descent Dynamics for Continuous Multi-Player Zero-Sum Games

要約

平均フィールド相互作用プレーヤーを備えたゼロサムゲームの混合ナッシュ平衡(MNE)の近似は、最近、機械学習に大きな関心を集めました。
このペーパーでは、$ k \ geq 2 $の$ k $プレーヤーが関与するゼロサムゲームのMNEを見つけるための平均フィールド勾配降下ダイナミクスを提案します。
プレイヤーの戦略分布の進化は、勾配の指数関数的に割引された時間平均を組み込んだ、勢いを伴う結合平均場勾配降下流に従います。
第一に、固定エントロピー正規化の場合、総変動メトリックに関する混合ナッシュ平衡に対する平均フィールドダイナミクスの指数収束率を証明します。
これにより、異なる平均化因子を持つ同様の時間平均ダイナミクスの以前の多項式収束率が向上します。
さらに、MNEを見つけるための以前の2スケールアプローチとは異なり、私たちのアプローチはすべてのプレーヤータイプを同じ時間尺度で扱います。
また、適切な選択肢の低下を選択すると、平均フィールドダイナミクスのシミュレートされたアニーリングバージョンが最初の正規化されていない問題のMNEに収束することを示しています。

要約(オリジナル)

The approximation of mixed Nash equilibria (MNE) for zero-sum games with mean-field interacting players has recently raised much interest in machine learning. In this paper we propose a mean-field gradient descent dynamics for finding the MNE of zero-sum games involving $K$ players with $K\geq 2$. The evolution of the players’ strategy distributions follows coupled mean-field gradient descent flows with momentum, incorporating an exponentially discounted time-averaging of gradients. First, in the case of a fixed entropic regularization, we prove an exponential convergence rate for the mean-field dynamics to the mixed Nash equilibrium with respect to the total variation metric. This improves a previous polynomial convergence rate for a similar time-averaged dynamics with different averaging factors. Moreover, unlike previous two-scale approaches for finding the MNE, our approach treats all player types on the same time scale. We also show that with a suitable choice of decreasing temperature, a simulated annealing version of the mean-field dynamics converges to an MNE of the initial unregularized problem.

arxiv情報

著者 Yulong Lu,Pierre Monmarché
発行日 2025-05-12 15:12:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 35Q89, 49N80, 90C47, 91A16, cs.LG, math.AP, math.OC, math.PR, stat.ML | Convergence of Time-Averaged Mean Field Gradient Descent Dynamics for Continuous Multi-Player Zero-Sum Games はコメントを受け付けていません

Joint Graph Convolution and Sequential Modeling for Scalable Network Traffic Estimation

要約

この研究は、複雑なトポロジ環境内のネットワークトラフィックを予測するという課題に焦点を当てています。
グラフ畳み込みネットワーク(GCN)とゲート再生ユニット(GRU)を統合する時空間モデリングアプローチを導入します。
GCNコンポーネントはネットワークノード間の空間依存関係をキャプチャし、GRUコンポーネントはトラフィックデータの時間的進化をモデル化します。
この組み合わせにより、将来のトラフィックパターンの正確な予測が可能になります。
提案されたモデルの有効性は、実際のアビリーンネットワークトラフィックデータセットでの包括的な実験を通じて検証されます。
このモデルは、いくつかの一般的な深い学習方法に対してベンチマークされています。
さらに、グラフ畳み込み層の数、異なる時間モデリング戦略、隣接マトリックスを構築する方法など、パフォーマンスに対するさまざまなコンポーネントの影響を調べるために一連のアブレーション実験が行われます。
結果は、提案されたアプローチが複数のメトリックにわたって優れたパフォーマンスを達成し、複雑なネットワークトラフィック予測シナリオにおける堅牢な安定性と強力な一般化能力を実証することを示しています。

要約(オリジナル)

This study focuses on the challenge of predicting network traffic within complex topological environments. It introduces a spatiotemporal modeling approach that integrates Graph Convolutional Networks (GCN) with Gated Recurrent Units (GRU). The GCN component captures spatial dependencies among network nodes, while the GRU component models the temporal evolution of traffic data. This combination allows for precise forecasting of future traffic patterns. The effectiveness of the proposed model is validated through comprehensive experiments on the real-world Abilene network traffic dataset. The model is benchmarked against several popular deep learning methods. Furthermore, a set of ablation experiments is conducted to examine the influence of various components on performance, including changes in the number of graph convolution layers, different temporal modeling strategies, and methods for constructing the adjacency matrix. Results indicate that the proposed approach achieves superior performance across multiple metrics, demonstrating robust stability and strong generalization capabilities in complex network traffic forecasting scenarios.

arxiv情報

著者 Nan Jiang,Wenxuan Zhu,Xu Han,Weiqiang Huang,Yumeng Sun
発行日 2025-05-12 15:38:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Joint Graph Convolution and Sequential Modeling for Scalable Network Traffic Estimation はコメントを受け付けていません

On Kernel-based Variational Autoencoder

要約

この論文では、KDESによって後部を近似し、エビデンス下限(ELBO)のKullback-Leibler(KL)の発散の上限を導き出すことにより、変動自動エンコーダー(VAE)およびカーネル密度推定(KDE)をブリッジします。
KDESの柔軟性により、VAESの後部の最適化が可能になります。これは、Vanilla VaeのGaussian Latent Spaceの制限に対処するだけでなく、ElboのKL駆除を推定する新しい視点も提供します。
適切な条件下では、epanechnikovカーネルが、Kl-divergenceの派生した上限を漸近的に最小化する最適な選択であることを示します。
ガウスカーネルと比較して、Epanechnikov Kernelにはコンパクトなサポートがあり、生成されたサンプルがノイズが少なくぼやけています。
エルボにおけるepanechnikovカーネルの実装は、リパラメーター化のトリックを直接採用できる「ロケーションスケールの」分布ファミリーにあるため、簡単です。
Mnist、Fashion-Mnist、Cifar-10、Celebaなどのベンチマークデータセットに関する一連の実験は、FIDスコアとシャープネスによって測定された再構築画像の品質において、バニラvaeよりもEpanechnikov Variational Autoenocoder(EVAE)の優位性をさらに示しています。

要約(オリジナル)

In this paper, we bridge Variational Autoencoders (VAEs) and kernel density estimations (KDEs) by approximating the posterior by KDEs and deriving an upper bound of the Kullback-Leibler (KL) divergence in the evidence lower bound (ELBO). The flexibility of KDEs makes the optimization of posteriors in VAEs possible, which not only addresses the limitations of Gaussian latent space in vanilla VAE but also provides a new perspective of estimating the KL-divergence in ELBO. Under appropriate conditions, we show that the Epanechnikov kernel is the optimal choice in minimizing the derived upper bound of KL-divergence asymptotically. Compared with Gaussian kernel, Epanechnikov kernel has compact support which should make the generated sample less noisy and blurry. The implementation of Epanechnikov kernel in ELBO is straightforward as it lies in the ‘location-scale’ family of distributions where the reparametrization tricks can be directly employed. A series of experiments on benchmark datasets such as MNIST, Fashion-MNIST, CIFAR-10 and CelebA further demonstrate the superiority of Epanechnikov Variational Autoenocoder (EVAE) over vanilla VAE in the quality of reconstructed images, as measured by the FID score and Sharpness.

arxiv情報

著者 Tian Qin,Wei-Min Huang
発行日 2025-05-12 15:43:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | On Kernel-based Variational Autoencoder はコメントを受け付けていません

Transfer Learning Across Fixed-Income Product Classes

要約

さまざまな固定所得製品クラスで割引曲線を転送するためのフレームワークを提案します。
スパースまたはノイズの多いデータから割引曲線を推定する際の課題に動機付けられ、カーネルリッジ回帰(KR)をベクター値設定に拡張し、ベクトル値の繁殖カーネルヒルベルトスペース(RKH)の凸最適化問題を策定します。
ソリューションの各コンポーネントは、特定の製品クラスで暗示される割引曲線に対応しています。
経済原則によって動機付けられた追加の正規化用語を導入し、製品クラス間の広がり曲線の滑らかさを促進し、有効な分離可能なカーネル構造につながることを示します。
主な理論的貢献は、分離可能なカーネルによって誘導されるベクトル値RKHSノルムの分解です。
さらに、ベクター値KRのガウスプロセス解釈を提供し、推定の不確実性の定量化を可能にします。
実例の例は、転送学習が外挿のパフォーマンスを大幅に改善し、単一カーブの推定と比較して信頼区間を強化することを示しています。

要約(オリジナル)

We propose a framework for transfer learning of discount curves across different fixed-income product classes. Motivated by challenges in estimating discount curves from sparse or noisy data, we extend kernel ridge regression (KR) to a vector-valued setting, formulating a convex optimization problem in a vector-valued reproducing kernel Hilbert space (RKHS). Each component of the solution corresponds to the discount curve implied by a specific product class. We introduce an additional regularization term motivated by economic principles, promoting smoothness of spread curves between product classes, and show that it leads to a valid separable kernel structure. A main theoretical contribution is a decomposition of the vector-valued RKHS norm induced by separable kernels. We further provide a Gaussian process interpretation of vector-valued KR, enabling quantification of estimation uncertainty. Illustrative examples demonstrate that transfer learning significantly improves extrapolation performance and tightens confidence intervals compared to single-curve estimation.

arxiv情報

著者 Nicolas Camenzind,Damir Filipovic
発行日 2025-05-12 15:43:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-fin.CP, q-fin.MF, stat.ML | Transfer Learning Across Fixed-Income Product Classes はコメントを受け付けていません

Geospatial Mechanistic Interpretability of Large Language Models

要約

大規模な言語モデル(LLM)は、さまざまな自然言語処理タスクにわたって前例のない機能を実証しています。
実行可能なテキストとコードを処理して生成する能力により、多くの分野でそれらを遍在させ、知識ベースと「推論」ツールとしての展開は継続的な研究の分野であり続けています。
地理では、増え続ける文献がLLMSの地理的知識と空間的推論を実行する能力の評価に焦点を当てています。
ただし、これらのモデルの内部機能、特に地理的情報の処理方法についてはまだほとんど知られていません。
この章では、地理空間機構の解釈可能性の研究のための新しいフレームワークを確立します – 空間分析を使用して、LLMSが地理的情報を処理する方法をリバースエンジニアリングします。
私たちの目的は、これらの複雑なモデルが地理情報を処理する際に生成する内部表現の理解を促進することです。そのような言い回しが過度の擬人化ではない場合、「地理的情報についてLLMがどのように考えるか」と呼ぶものです。
まず、LLMS内の内部構造を明らかにする際の調査の使用の概要を説明します。
次に、機械的解釈可能性の分野を紹介し、LLMのポリマンティック内部表現をより解釈可能で単調な特徴に解く際の重ね合わせ仮説とまばらな自動エンコーダーの役割について議論します。
私たちの実験では、空間自己相関を使用して、プレースネームで得られた機能が地理的位置に関連する空間パターンをどのように表示し、したがって地理空間的に解釈できるかを示し、これらのモデルが地理的情報をどのように処理するかについての洞察を提供します。
私たちのフレームワークが、地理での基礎モデルの研究と使用を形作るのにどのように役立つかを議論することで最後に説明します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated unprecedented capabilities across various natural language processing tasks. Their ability to process and generate viable text and code has made them ubiquitous in many fields, while their deployment as knowledge bases and ‘reasoning’ tools remains an area of ongoing research. In geography, a growing body of literature has been focusing on evaluating LLMs’ geographical knowledge and their ability to perform spatial reasoning. However, very little is still known about the internal functioning of these models, especially about how they process geographical information. In this chapter, we establish a novel framework for the study of geospatial mechanistic interpretability – using spatial analysis to reverse engineer how LLMs handle geographical information. Our aim is to advance our understanding of the internal representations that these complex models generate while processing geographical information – what one might call ‘how LLMs think about geographic information’ if such phrasing was not an undue anthropomorphism. We first outline the use of probing in revealing internal structures within LLMs. We then introduce the field of mechanistic interpretability, discussing the superposition hypothesis and the role of sparse autoencoders in disentangling polysemantic internal representations of LLMs into more interpretable, monosemantic features. In our experiments, we use spatial autocorrelation to show how features obtained for placenames display spatial patterns related to their geographic location and can thus be interpreted geospatially, providing insights into how these models process geographical information. We conclude by discussing how our framework can help shape the study and use of foundation models in geography.

arxiv情報

著者 Stef De Sabbata,Stefano Mizzaro,Kevin Roitero
発行日 2025-05-12 15:44:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Geospatial Mechanistic Interpretability of Large Language Models はコメントを受け付けていません

SpecRouter: Adaptive Routing for Multi-Level Speculative Decoding in Large Language Models

要約

大規模な言語モデル(LLMS)は、推論の品質と計算コストの間に重要なトレードオフを提示します。大きなモデルは優れた機能を提供しますが、大幅な遅延が発生しますが、小規模なモデルはより速いが強力ではありません。
既存のサービング戦略は、多くの場合、固定モデルスケールまたは静的な2段階の投機的デコードを採用しており、ユーザー要求のさまざまな複雑さやシステムパフォーマンスの変動に動的に適応できません。
このペーパーでは、マルチレベルの投機的デコードを通じて解決された適応ルーティングの問題としてLLM推論を再考する新しいフレームワークである\ SystemName {}を紹介します。
\ SystemName {}リアルタイムフィードバックに基づいて、推論「パス」(モデルのチェーン)を動的に構築および最適化し、静的アプローチの制限に対処します。
私たちの貢献は、(1)パフォーマンスプロファイリング(実行時間)および予測的類似性メトリック(トークン分布の発散に由来する)を活用する\ textBf {Adaptive Model Chain Scheduling}メカニズムを3倍にし、ドラフトとベリファイアモデルの最適なシーケンスを継続的に選択し、発電されたトークンあたりのレイテンシーを最小化します。
(2)選択されたチェーン内の中間モデルが投機的トークンを検証し、最終的な最も強力なターゲットモデルの検証負担を軽減できるa \ textBf {マルチレベルのコラボレーション検証}フレームワーク。
(3)a \ textBf {同期状態管理}システムは、マルチレベルの投機に固有の非同期バッチ処理に合わせた正確で低オーバーヘッドロールバックを含む、チェーン内の異種モデル全体で効率的で一貫したKVキャッシュ処理を提供します。
予備的な実験は、私たちの方法の妥当性を示しています。

要約(オリジナル)

Large Language Models (LLMs) present a critical trade-off between inference quality and computational cost: larger models offer superior capabilities but incur significant latency, while smaller models are faster but less powerful. Existing serving strategies often employ fixed model scales or static two-stage speculative decoding, failing to dynamically adapt to the varying complexities of user requests or fluctuations in system performance. This paper introduces \systemname{}, a novel framework that reimagines LLM inference as an adaptive routing problem solved through multi-level speculative decoding. \systemname{} dynamically constructs and optimizes inference ‘paths’ (chains of models) based on real-time feedback, addressing the limitations of static approaches. Our contributions are threefold: (1) An \textbf{adaptive model chain scheduling} mechanism that leverages performance profiling (execution times) and predictive similarity metrics (derived from token distribution divergence) to continuously select the optimal sequence of draft and verifier models, minimizing predicted latency per generated token. (2) A \textbf{multi-level collaborative verification} framework where intermediate models within the selected chain can validate speculative tokens, reducing the verification burden on the final, most powerful target model. (3) A \textbf{synchronized state management} system providing efficient, consistent KV cache handling across heterogeneous models in the chain, including precise, low-overhead rollbacks tailored for asynchronous batch processing inherent in multi-level speculation. Preliminary experiments demonstrate the validity of our method.

arxiv情報

著者 Hang Wu,Jianian Zhu,Yinghui Li,Haojie Wang,Biao Hou,Jidong Zhai
発行日 2025-05-12 15:46:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG | SpecRouter: Adaptive Routing for Multi-Level Speculative Decoding in Large Language Models はコメントを受け付けていません