Sample Compression for Continual Learning

要約

継続的な学習アルゴリズムは、一連のタスクから学習し、トレーニング分布を非定常にすることを目的としています。
文献の既存の継続的な学習アプローチの大部分は、ヒューリスティックに依存しており、継続的な学習セットアップの学習保証を提供していません。
この論文では、「Continual Pick-to-Learn」(COP2L)と呼ばれる新しい方法を提示します。これは、各タスクの最も代表的なサンプルを効率的な方法で保持できます。
アルゴリズムは、サンプル圧縮理論に根ざしたピック間アルゴリズムから採用されています。
これにより、学習モデルの更新ごとに数値的に計算できる、学習予測子の一般化損失に高い自信の上限を提供することができます。
また、いくつかの標準的な継続的な学習ベンチマークで、アルゴリズムが標準エクスペリエンスリプレイを上回ることができることを経験的に示し、壊滅的な忘却を大幅に軽減します。

要約(オリジナル)

Continual learning algorithms aim to learn from a sequence of tasks, making the training distribution non-stationary. The majority of existing continual learning approaches in the literature rely on heuristics and do not provide learning guarantees for the continual learning setup. In this paper, we present a new method called ‘Continual Pick-to-Learn’ (CoP2L), which is able to retain the most representative samples for each task in an efficient way. The algorithm is adapted from the Pick-to-Learn algorithm, rooted in the sample compression theory. This allows us to provide high-confidence upper bounds on the generalization loss of the learned predictors, numerically computable after every update of the learned model. We also empirically show on several standard continual learning benchmarks that our algorithm is able to outperform standard experience replay, significantly mitigating catastrophic forgetting.

arxiv情報

著者 Jacob Comeau,Mathieu Bazinet,Pascal Germain,Cem Subakan
発行日 2025-03-13 16:05:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Sample Compression for Continual Learning はコメントを受け付けていません

SySLLM: Generating Synthesized Policy Summaries for Reinforcement Learning Agents Using Large Language Models

要約

強化学習(RL)アルゴリズムによって生成されたポリシーは、複雑な報酬構造とニューラルネットワークベースの表現との相互作用に起因するため、ユーザーに説明するのが難しい場合があります。
この組み合わせは、多くの場合、予測不可能な行動につながり、現実世界のアプリケーションに対する人間の信頼を促進するための重要な障害を分析し、提起することに挑戦する政策をもたらします。
グローバルな政策要約方法は、世界国家のサブセットでのアクションの実証を通じてエージェントの行動を記述することを目的としています。
ただし、ユーザーは限られた数のデモンストレーションのみを視聴でき、ポリシーの理解を制限できます。
さらに、これらの方法は、観測をコヒーレントパターンに合成しないため、ユーザーの解釈に過度に依存しています。
この作業では、Sysllm(LLMSを使用して合成された要約)を提示します。これは、大規模な言語モデル(LLMS)の広範な世界の知識とパターンをキャプチャする能力を利用して、ポリシーのテキストの要約を生成するために、大規模な言語モデル(LLM)の広範な知識と能力を利用して、合成要約を使用する新しい方法です。
具体的には、専門家の評価は、提案されたアプローチが、重要な幻覚をもたらさない一方で、専門家によって生成された主な洞察をキャプチャする要約を生成することを示しています。
さらに、ユーザー調査では、SYSLLMの要約がデモベースのポリシーの要約よりも優先され、客観的なエージェント識別タスクでのパフォーマンスを一致または上回ることが示されています。

要約(オリジナル)

Policies generated by Reinforcement Learning (RL) algorithms can be difficult to describe to users, as they result from the interplay between complex reward structures and neural network-based representations. This combination often leads to unpredictable behaviors, making policies challenging to analyze and posing significant obstacles to fostering human trust in real-world applications. Global policy summarization methods aim to describe agent behavior through a demonstration of actions in a subset of world-states. However, users can only watch a limited number of demonstrations, restricting their understanding of policies. Moreover, those methods overly rely on user interpretation, as they do not synthesize observations into coherent patterns. In this work, we present SySLLM (Synthesized Summary using LLMs), a novel method that employs synthesis summarization, utilizing large language models’ (LLMs) extensive world knowledge and ability to capture patterns, to generate textual summaries of policies. Specifically, an expert evaluation demonstrates that the proposed approach generates summaries that capture the main insights generated by experts while not resulting in significant hallucinations. Additionally, a user study shows that SySLLM summaries are preferred over demonstration-based policy summaries and match or surpass their performance in objective agent identification tasks.

arxiv情報

著者 Sahar Admoni,Omer Ben-Porat,Ofra Amir
発行日 2025-03-13 16:10:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | SySLLM: Generating Synthesized Policy Summaries for Reinforcement Learning Agents Using Large Language Models はコメントを受け付けていません

Extreme Learning Machines for Attention-based Multiple Instance Learning in Whole-Slide Image Classification

要約

全面画像分類は、計算病理学と医学の重要な課題です。
注意ベースの複数インスタンス学習(MIL)は、この問題に対する効果的なアプローチとして浮上しています。
ただし、モデルのパフォーマンスに対する注意メカニズムアーキテクチャの効果は、生物医学的画像については十分に文書化されていません。
この作業では、深い学習バリアントを含むMILのさまざまな方法と実装を比較します。
深いMILの高次元機能スペースを使用して、新しい方法を紹介します。
また、極端な機械学習が注意ベースのMILと組み合わされて感受性を改善し、トレーニングの複雑さを軽減するための滑り画像分類のための新しいアルゴリズムを開発します。
アルゴリズムを、周辺の血液中の紅斑芽細胞などの循環レア細胞(CRC)を検出する問題に適用します。
私たちの結果は、非線形性が分類において重要な役割を果たすことを示しています。それらを除去すると、4%以上の曲線下(AUC)の平均面積が減少することに加えて、安定性の急激な減少につながるためです。
また、高次元の特徴スペースが活用されている場合、平均AUCで10%を超える改善により、モデルの堅牢性が大幅に増加することを示しています。
さらに、極端な学習マシンは、訓練されたパラメーターの数を5倍に減らしながら、平均AUCを深いMILモデルの1.5%以内に維持することにより、トレーニング効率に関して明確な改善を提供できることを示しています。
最後に、将来、クラシックコンピューティングフレームワークを量子アルゴリズムで充実させるオプションについて説明します。
したがって、この作業は、精密医療の構成要素の1つである、より正確で効率的なシングルセル診断への道を開くのに役立ちます。

要約(オリジナル)

Whole-slide image classification represents a key challenge in computational pathology and medicine. Attention-based multiple instance learning (MIL) has emerged as an effective approach for this problem. However, the effect of attention mechanism architecture on model performance is not well-documented for biomedical imagery. In this work, we compare different methods and implementations of MIL, including deep learning variants. We introduce a new method using higher-dimensional feature spaces for deep MIL. We also develop a novel algorithm for whole-slide image classification where extreme machine learning is combined with attention-based MIL to improve sensitivity and reduce training complexity. We apply our algorithms to the problem of detecting circulating rare cells (CRCs), such as erythroblasts, in peripheral blood. Our results indicate that nonlinearities play a key role in the classification, as removing them leads to a sharp decrease in stability in addition to a decrease in average area under the curve (AUC) of over 4%. We also demonstrate a considerable increase in robustness of the model with improvements of over 10% in average AUC when higher-dimensional feature spaces are leveraged. In addition, we show that extreme learning machines can offer clear improvements in terms of training efficiency by reducing the number of trained parameters by a factor of 5 whilst still maintaining the average AUC to within 1.5% of the deep MIL model. Finally, we discuss options of enriching the classical computing framework with quantum algorithms in the future. This work can thus help pave the way towards more accurate and efficient single-cell diagnostics, one of the building blocks of precision medicine.

arxiv情報

著者 Rajiv Krishnakumar,Julien Baglio,Frederik F. Flöther,Christian Ruiz,Stefan Habringer,Nicole H. Romano
発行日 2025-03-13 16:14:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM, quant-ph | Extreme Learning Machines for Attention-based Multiple Instance Learning in Whole-Slide Image Classification はコメントを受け付けていません

scMEDAL for the interpretable analysis of single-cell transcriptomics data with batch effect visualization using a deep mixed effects autoencoder

要約

SCRNA-seqデータは、細胞の不均一性とデータ収集に関する新しい洞察を提供する可能性があります。
ただし、大きな課題は、技術的および生物学的バッチ効果から混乱を解くことです。
既存のバッチ補正アルゴリズムは、それらを定量化およびモデル化するのではなく、これらの効果を抑制および破棄します。
ここでは、2つの相補的自動エンコーダーネットワークを使用してバッチインヴァリアントおよびバッチ固有の効果を個別にモデル化するシングルセル混合エフェクトディープオートエンコーダー学習のフレームワークであるScmedalを提示します。
1つのネットワークは、バッチ不変の表現をキャプチャするために敵対的な学習を通じてトレーニングされ、ベイジアンオートエンコーダーはバッチ固有の表現を学習します。
包括的な評価条件(自閉症、白血病、心血管系など)、細胞タイプ、および技術的および生物学的効果にまたがる包括的な評価は、SCMEDALがバッチ特異的な変動をモデル化し、精度と解釈性を高める一方でバッチ効果を抑制することを示しています。
以前のアプローチとは異なり、フレームワークの固定およびランダム効果は、細胞レベルでのゲノマップ投影を介して異なるバッチで取得されたかのように細胞の式を予測し、生物学的(例えば診断)および技術(例えば、獲得)の影響を明らかにするなど、レトロスペクティブ分析を可能にします。
SCMEDALのバッチ依存とバッチ固有の潜在スペースを組み合わせることにより、疾患の状態、ドナーグループ、および細胞型をより正確に予測できるようになり、SCMEDALはデータ収集と細胞の不均一性をより深く洞察するための貴重なフレームワークにします。

要約(オリジナル)

scRNA-seq data has the potential to provide new insights into cellular heterogeneity and data acquisition; however, a major challenge is unraveling confounding from technical and biological batch effects. Existing batch correction algorithms suppress and discard these effects, rather than quantifying and modeling them. Here, we present scMEDAL, a framework for single-cell Mixed Effects Deep Autoencoder Learning, which separately models batch-invariant and batch-specific effects using two complementary autoencoder networks. One network is trained through adversarial learning to capture a batch-invariant representation, while a Bayesian autoencoder learns a batch-specific representation. Comprehensive evaluations spanning conditions (e.g., autism, leukemia, and cardiovascular), cell types, and technical and biological effects demonstrate that scMEDAL suppresses batch effects while modeling batch-specific variation, enhancing accuracy and interpretability. Unlike prior approaches, the framework’s fixed- and random-effects autoencoders enable retrospective analyses, including predicting a cell’s expression as if it had been acquired in a different batch via genomap projections at the cellular level, revealing the impact of biological (e.g., diagnosis) and technical (e.g., acquisition) effects. By combining scMEDAL’s batch-agnostic and batch-specific latent spaces, it enables more accurate predictions of disease status, donor group, and cell type, making scMEDAL a valuable framework for gaining deeper insight into data acquisition and cellular heterogeneity.

arxiv情報

著者 Aixa X. Andrade,Son Nguyen,Albert Montillo
発行日 2025-03-13 16:15:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.GN | scMEDAL for the interpretable analysis of single-cell transcriptomics data with batch effect visualization using a deep mixed effects autoencoder はコメントを受け付けていません

Structured Preconditioners in Adaptive Optimization: A Unified Analysis

要約

オンライン後悔とオフラインの凸最適化の両方について、構造化された(例えば、層状、対角線、およびクロネッカーファクター)前委員会を備えた、幅広いクラスの適応最適化アルゴリズムの新しい統一分析を提示します。
我々の分析は、対角線アダグラード、フルマトリックスアダグラード、アダグラードノームなど、いくつかの重要な構造化された前処理されたアルゴリズムと一致するレートを提供するだけでなく、元のシャンプーの片側シャンプーの片面変異体の収束率を改善します。
興味深いことに、より構造化された前処理者(例:より少​​ないスペースと計算を使用する斜めのアダグラード、アダグラードノーム)は、フルマトリックスアダグラードの計算効率的な近似としてしばしば提示され、より良い近似による最適化パフォーマンスの改善を目的としています。
統一された分析は、この一般的な見解に挑戦し、おそらく驚くべきことに、より構造化された前提条件が、ステップあたりのスペースと計算を使用しても、より構造化されたカウンターパートを上回ることができることを明らかにします。
これを実証するために、フルマトリックスのアダグラードよりもはるかに安価な片側シャンプーが理論的にも実験的にも優れていることを示します。

要約(オリジナル)

We present a novel unified analysis for a broad class of adaptive optimization algorithms with structured (e.g., layerwise, diagonal, and kronecker-factored) preconditioners for both online regret minimization and offline convex optimization. Our analysis not only provides matching rate to several important structured preconditioned algorithms including diagonal AdaGrad, full-matrix AdaGrad, and AdaGrad-Norm, but also gives an improved convergence rate for a one-sided variant of Shampoo over that of original Shampoo. Interestingly, more structured preconditioners (e.g., diagonal Adagrad, AdaGrad-Norm which use less space and compute) are often presented as computationally efficient approximations to full-matrix Adagrad, aiming for improved optimization performance through better approximations. Our unified analysis challenges this prevailing view and reveals, perhaps surprisingly, that more structured preconditioners, despite using less space and computation per step, can outperform their less structured counterparts. To demonstrate this, we show that one-sided Shampoo, which is relatively much cheaper than full-matrix AdaGrad could outperform it both theoretically and experimentally.

arxiv情報

著者 Shuo Xie,Tianhao Wang,Sashank Reddi,Sanjiv Kumar,Zhiyuan Li
発行日 2025-03-13 16:51:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Structured Preconditioners in Adaptive Optimization: A Unified Analysis はコメントを受け付けていません

DP-GPL: Differentially Private Graph Prompt Learning

要約

グラフニューラルネットワーク(GNNS)は、さまざまなアプリケーションで顕著なパフォーマンスを示しています。
最近、グラフプロンプトラーニングは、言語およびビジョンファンデーションモデルの進歩に触発された、強力なGNNトレーニングパラダイムとして浮上しました。
ここでは、GNNはパブリックデータで事前に訓練され、軽量グラフプロンプトを使用して機密タスクに適応します。
ただし、機密データからのプロンプトを使用すると、プライバシーリスクが発生します。
この作業では、大きなプライバシーの漏れを明らかにするメンバーシップ推論攻撃をインスタンス化することにより、グラフプロンプトのこれらの実際的なリスクを調査した最初のものです。
また、プロンプトの学習に使用される機密データポイントの数が少ないため、おそらくグラフプロンプト学習で実用的なプライバシー – 有効性のトレードオフを提供していない標準的なプライバシー方法DP-SGDはまた、実用的なプライバシー – 有効性のトレードオフを提供できないことがわかります。
解決策として、PATEフレームワークに基づいた差別的なプライベートグラフプロンプト学習用のDP-GPLを提案し、プライバシー保証を保証するグラフプロンプトを生成します。
さまざまなグラフプロンプト学習方法、GNNアーキテクチャ、およびトレーニング前の戦略にわたる評価は、アルゴリズムが強力なプライバシーで高いユーティリティを達成し、グラフドメインの強力な基礎モデルとしてGNNSの強力な機能を維持しながら、プライバシーの懸念を効果的に緩和することを示しています。

要約(オリジナル)

Graph Neural Networks (GNNs) have shown remarkable performance in various applications. Recently, graph prompt learning has emerged as a powerful GNN training paradigm, inspired by advances in language and vision foundation models. Here, a GNN is pre-trained on public data and then adapted to sensitive tasks using lightweight graph prompts. However, using prompts from sensitive data poses privacy risks. In this work, we are the first to investigate these practical risks in graph prompts by instantiating a membership inference attack that reveals significant privacy leakage. We also find that the standard privacy method, DP-SGD, fails to provide practical privacy-utility trade-offs in graph prompt learning, likely due to the small number of sensitive data points used to learn the prompts. As a solution, we propose DP-GPL for differentially private graph prompt learning based on the PATE framework, that generates a graph prompt with differential privacy guarantees. Our evaluation across various graph prompt learning methods, GNN architectures, and pre-training strategies demonstrates that our algorithm achieves high utility at strong privacy, effectively mitigating privacy concerns while preserving the powerful capabilities of prompted GNNs as powerful foundation models in the graph domain.

arxiv情報

著者 Jing Xu,Franziska Boenisch,Iyiola Emmanuel Olatunji,Adam Dziedzic
発行日 2025-03-13 16:58:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | DP-GPL: Differentially Private Graph Prompt Learning はコメントを受け付けていません

From Linear to Spline-Based Classification:Developing and Enhancing SMPA for Noisy Non-Linear Datasets

要約

移動ポイントアルゴリズムの開発に使用される概念とメカニズムに基づいて、分類タスクのために非線形決定境界を開発する方法を調査します。
まず、MPAの分類パフォーマンスと、元のアルゴリズムのいくつかのマイナーな開発について説明します。
次に、同様の学習メカニズムを使用して分類のためにキュービックスプラインを使用した背後にある概念について説明し、既知の特性を持つ合成データセットのトレーニング結果を最後に分析します。

要約(オリジナル)

Building upon the concepts and mechanisms used for the development in Moving Points Algorithm, we will now explore how non linear decision boundaries can be developed for classification tasks. First we will look at the classification performance of MPA and some minor developments in the original algorithm. We then discuss the concepts behind using cubic splines for classification with a similar learning mechanism and finally analyze training results on synthetic datasets with known properties.

arxiv情報

著者 Vatsal Srivastava
発行日 2025-03-13 16:58:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, I.5.2 | From Linear to Spline-Based Classification:Developing and Enhancing SMPA for Noisy Non-Linear Datasets はコメントを受け付けていません

ASIDE: Architectural Separation of Instructions and Data in Language Models

要約

彼らの驚くべきパフォーマンスにもかかわらず、大規模な言語モデルには基本的な安全性の機能があり、これにより多くの悪意のある攻撃の影響を受けやすくなります。
特に、以前の研究では、迅速な注射攻撃の成功の根本原因として、指示とデータの間に本質的な分離がないことが特定されています。
この作業では、モデルに個別の埋め込みを使用して、モデルが指示とデータを明確に分離できるようにするアーキテクチャの変更を除いて提案します。
埋め込みをゼロからトレーニングする代わりに、元のモデルの埋め込み層の2つのコピーを使用して、そのうちの1つに直交回転を適用することにより、既存のモデルを脇に変換する方法を提案します。
(1)モデル能力の損失なしに、(2)専用の安全トレーニングがなくても、迅速な噴射ベンチマークの競争結果を示すことにより、私たちの方法の有効性を実証します。
さらに、モデル表現の分析を通じて、方法の背後にある作業メカニズムを研究します。

要約(オリジナル)

Despite their remarkable performance, large language models lack elementary safety features, and this makes them susceptible to numerous malicious attacks. In particular, previous work has identified the absence of an intrinsic separation between instructions and data as a root cause for the success of prompt injection attacks. In this work, we propose an architectural change, ASIDE, that allows the model to clearly separate between instructions and data by using separate embeddings for them. Instead of training the embeddings from scratch, we propose a method to convert an existing model to ASIDE form by using two copies of the original model’s embeddings layer, and applying an orthogonal rotation to one of them. We demonstrate the effectiveness of our method by showing (1) highly increased instruction-data separation scores without a loss in model capabilities and (2) competitive results on prompt injection benchmarks, even without dedicated safety training. Additionally, we study the working mechanism behind our method through an analysis of model representations.

arxiv情報

著者 Egor Zverev,Evgenii Kortukov,Alexander Panfilov,Soroush Tabesh,Alexandra Volkova,Sebastian Lapuschkin,Wojciech Samek,Christoph H. Lampert
発行日 2025-03-13 17:17:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | ASIDE: Architectural Separation of Instructions and Data in Language Models はコメントを受け付けていません

FedPCA: Noise-Robust Fair Federated Learning via Performance-Capacity Analysis

要約

一般的なデータとレアの両方のデータを効果的に処理するモデルをトレーニングし、パフォーマンスの公平性を達成することは、フェデレートラーニング(FL)において重要です。
既存のFAIR FLメソッドは有効性を示していますが、それらは誤ったラベルデータに対して脆弱なままです。
したがって、FAIR FLで堅牢性を確保することが不可欠です。
ただし、公平性と堅牢性は本質的に競合しており、これにより、堅牢な戦略が公平性を妨げます。
このホワイトペーパーでは、この競争は、まれで誤ったラベル付けされたデータクライアントが示す損失パターンの均一性に起因し、既存の損失ベースの公正で堅牢なFLメソッドがこれらの2つの異なるクライアントタイプを効果的に区別および処理することを防ぎます。
これに対処するために、各クライアントのモデルパフォーマンスと、損失と新たに導入された機能分散スコアで測定されたデータセットを処理する能力を共同で考慮するパフォーマンス容量分析を提案します。
これにより、誤解を招くクライアントは、希少なデータクライアントを維持しながら、容量に比べて大幅に逸脱したパフォーマンスによって特定されることができます。
これに基づいて、FEDPCAを紹介します。FEDPCAは、公平性を堅牢に達成するFLメソッドです。
FEDPCAは、最初に、損失分散ペアに関するガウス混合モデルを介して誤解を招くクライアントを識別し、次にクライアントの重みを調整し、信頼できるデータを選択的に使用して、グローバルな集約とローカルトレーニングに公平性と堅牢性戦略を適用します。
3つのデータセットでの広範な実験は、この複雑な課題に取り組む際のFEDPCAの有効性を示しています。
コードは、受け入れられると公開されます。

要約(オリジナル)

Training a model that effectively handles both common and rare data-i.e., achieving performance fairness-is crucial in federated learning (FL). While existing fair FL methods have shown effectiveness, they remain vulnerable to mislabeled data. Ensuring robustness in fair FL is therefore essential. However, fairness and robustness inherently compete, which causes robust strategies to hinder fairness. In this paper, we attribute this competition to the homogeneity in loss patterns exhibited by rare and mislabeled data clients, preventing existing loss-based fair and robust FL methods from effectively distinguishing and handling these two distinct client types. To address this, we propose performance-capacity analysis, which jointly considers model performance on each client and its capacity to handle the dataset, measured by loss and a newly introduced feature dispersion score. This allows mislabeled clients to be identified by their significantly deviated performance relative to capacity while preserving rare data clients. Building on this, we introduce FedPCA, an FL method that robustly achieves fairness. FedPCA first identifies mislabeled clients via a Gaussian Mixture Model on loss-dispersion pairs, then applies fairness and robustness strategies in global aggregation and local training by adjusting client weights and selectively using reliable data. Extensive experiments on three datasets demonstrate FedPCA’s effectiveness in tackling this complex challenge. Code will be publicly available upon acceptance.

arxiv情報

著者 Nannan Wu,Zengqiang Yan,Nong Sang,Li Yu,Chang Wen Chen
発行日 2025-03-13 17:18:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | FedPCA: Noise-Robust Fair Federated Learning via Performance-Capacity Analysis はコメントを受け付けていません

Radar: Fast Long-Context Decoding for Any Transformer

要約

トランスモデルは、幅広いアプリケーションで並外れたパフォーマンスを実証しています。
変圧器モデルの基礎を形成しますが、DOT製品の注意は、その時間要件がコンテキストの長さとともに2次に成長するため、長いコンテキストデータにうまく拡張しません。
この作業では、最も重要なコンテキストトークンを動的に検索することで推論を加速するトレーニングなしのアプローチであるレーダーを提案します。
事前に訓練された変圧器の場合、レーダーはトレーニングやヒューリスティックなトークンを追跡することなく、デコード時間の複雑さを減らすことができます。
さらに、私たちはアプローチの理論的正当化を提供し、レーダーが高い確率で最も重要なトークンを確実に識別できることを実証します。
幅広いタスクで以前の方法と大規模な比較を実施します。
結果は、レーダーが時間が短縮されたさまざまなアーキテクチャで最先端のパフォーマンスを達成し、変圧器の効率的な長いコンテキスト処理のための実用的なソリューションを提供することを示しています。

要約(オリジナル)

Transformer models have demonstrated exceptional performance across a wide range of applications. Though forming the foundation of Transformer models, the dot-product attention does not scale well to long-context data since its time requirement grows quadratically with context length. In this work, we propose Radar, a training-free approach that accelerates inference by dynamically searching for the most important context tokens. For any pre-trained Transformer, Radar can reduce the decoding time complexity without training or heuristically evicting tokens. Moreover, we provide theoretical justification for our approach, demonstrating that Radar can reliably identify the most important tokens with high probability. We conduct extensive comparisons with the previous methods on a wide range of tasks. The results demonstrate that Radar achieves the state-of-the-art performance across different architectures with reduced time complexity, offering a practical solution for efficient long-context processing of Transformers.

arxiv情報

著者 Yongchang Hao,Mengyao Zhai,Hossein Hajimirsadeghi,Sepidehsadat Hosseini,Frederick Tung
発行日 2025-03-13 17:23:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Radar: Fast Long-Context Decoding for Any Transformer はコメントを受け付けていません