Pruner: A Draft-then-Verify Exploration Mechanism to Accelerate Tensor Program Tuning

要約

テンソルプログラムのチューニングは、深いニューラルネットワークの効率的な展開に不可欠です。
検索ベースのアプローチは、特定のハードウェアの高性能プログラムを自動的に見つける際にスケーラビリティと有効性を実証しました。
ただし、多くの場合、検索プロセスは非効率的であり、正確ではあるが遅いコストモデルによって導かれる探索メカニズムのために、最適なプログラムを発見するために数時間または数日かかります。
一方、あるプラットフォームで訓練された学習コストモデルは、オンラインでシームレスにオンラインで適応することはできません。
この作業では、PrunerとMoa-Prunerを提案します。
Prunerは、スケジュールの検索プロセスを加速する「ドラフト – ヴェリフィー」探索メカニズムです。
複雑な学習コストモデルをすべての探索した候補者に適用する代わりに、Prunerは、ナイーブシンボルベースのアナライザー(ドラフトモデル)を導入することにより、小規模な潜在的な候補者をドラフトし、学習コストモデルで最高の候補者を特定します。
MOA-Prunerは、クロスプラットフォームのオンラインの不明確さに対処するための勢いのオンライン適応戦略を導入します。
PrunerをTVMに組み込み、3つのGPUベースのプラットフォームで広範な実験を実施します。
結果は、スケジュール検索時間のかなりの速度を示しています。
オンラインチューニングシナリオでは、PrunerとMOA-PrunerがANSORと比較して平均$ 2.6 \ Times $と4.82 \ Times $の平均スピードアップを達成します。
オフラインチューニングシナリオでは、Prunerは、それぞれTensetとTLPと比較して、それぞれ4.75 \ Times $ $ 4.05 \ Times $の平均スピードアップを達成します。
さらに、Prunerは、TensorcoreのMetascheduleと比較して、平均$ 4.08 \ Times $のスピードアップを達成します。

要約(オリジナル)

Tensor program tuning is essential for the efficient deployment of deep neural networks. Search-based approaches have demonstrated scalability and effectiveness in automatically finding high-performance programs for specific hardware. However, the search process is often inefficient, taking hours or even days to discover optimal programs due to the exploration mechanisms guided by an accurate but slow-learned cost model. Meanwhile, the learned cost model trained on one platform cannot seamlessly adapt online to another, which we call cross-platform online unawareness. In this work, we propose Pruner and MoA-Pruner. Pruner is a ‘Draft-then-Verify’ exploration mechanism that accelerates the schedule search process. Instead of applying the complex learned cost model to all explored candidates, Pruner drafts small-scale potential candidates by introducing a naive Symbol-based Analyzer (draft model), then identifies the best candidates by the learned cost model. MoA-Pruner introduces a Momentum online Adaptation strategy to address the cross-platform online unawareness. We incorporate Pruner into the TVM and conduct extensive experiments on three GPU-based platforms. Results show considerable speedup in schedule search time. In online tuning scenarios, Pruner and MoA-Pruner achieve an average speedup of $2.6 \times$ and $4.82 \times$ compared to Ansor. In offline tuning scenarios, Pruner achieves an average speedup of $4.75 \times$ and $4.05\times$ compared to TenSet and TLP, respectively. Furthermore, Pruner achieves an average speedup of $4.08 \times$ compared to MetaSchedule on TensorCore.

arxiv情報

著者 Liang Qiao,Jun Shi,Xiaoyu Hao,Xi Fang,Sen Zhang,Minfan Zhao,Ziqi Zhu,Junshi Chen,Hong An,Xulong Tang,Bing Li,Honghui Yuan,Xinyang Wang
発行日 2025-04-09 17:26:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Pruner: A Draft-then-Verify Exploration Mechanism to Accelerate Tensor Program Tuning はコメントを受け付けていません

Enhancing Downstream Analysis in Genome Sequencing: Species Classification While Basecalling

要約

メタゲノムプロファイリングとして知られるサンプル内の微生物種を迅速かつ正確に識別する能力は、ヘルスケアから環境科学まで、さまざまな分野で重要です。
このホワイトペーパーでは、ベースコールと呼ばれるプロセスを決定することと、ヌクレオチド配列を決定することと並行して並行してシーケンスデバイスから来るプロファイルのプロファイルを紹介します。
ベースコールと分類の損失が個別に戻ってきて、共有レイヤーにモデルの重みが組み合わされ、事前に構成されたランキング戦略がトップK種の精度を可能にし、ユーザーが種を識別する際のより高い精度または高速を選択できるようにする新しい損失戦略を導入します。
分類精度は最先端の精度を達成し、最先端のバイナリ分類子の結果を満たし、それを超えており、ick細菌データセットの合計17のゲノムの中でトップ1/3種を特定する際に平均92.5%/98.9%の精度を達成しました。
ここで紹介する研究は、DNA配列を正しいゲノムに一致させるボトルネックステップを加速することにより、メタゲノムプロファイリングの将来の研究に影響を与えます。

要約(オリジナル)

The ability to quickly and accurately identify microbial species in a sample, known as metagenomic profiling, is critical across various fields, from healthcare to environmental science. This paper introduces a novel method to profile signals coming from sequencing devices in parallel with determining their nucleotide sequences, a process known as basecalling, via a multi-objective deep neural network for simultaneous basecalling and multi-class genome classification. We introduce a new loss strategy where losses for basecalling and classification are back-propagated separately, with model weights combined for the shared layers, and a pre-configured ranking strategy allowing top-K species accuracy, giving users flexibility to choose between higher accuracy or higher speed at identifying the species. We achieve state-of-the-art basecalling accuracies, while classification accuracies meet and exceed the results of state-of-the-art binary classifiers, attaining an average of 92.5%/98.9% accuracy at identifying the top-1/3 species among a total of 17 genomes in the Wick bacterial dataset. The work presented here has implications for future studies in metagenomic profiling by accelerating the bottleneck step of matching the DNA sequence to the correct genome.

arxiv情報

著者 Riselda Kodra,Hadjer Benmeziane,Irem Boybat,William Andrew Simon
発行日 2025-04-09 17:30:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.GN | Enhancing Downstream Analysis in Genome Sequencing: Species Classification While Basecalling はコメントを受け付けていません

Estimation of embedding vectors in high dimensions

要約

埋め込みは、多くの機械学習モデル、特に自然言語処理における基本的な初期機能抽出ステップです。
埋め込みは、埋め込み空間のある程度のメトリックによって互いに近いベクトルに類似したトークンがマッピングされる低次元空間にデータトークンをマッピングしようとします。
基本的な質問は、そのような埋め込みをどの程度十分に学ぶことができるかということです。
この問題を研究するために、ランダム変数の相関が埋め込みの類似性に関連する「真の」が不明な埋め込みがある離散データの単純な確率モデルを検討します。
このモデルでは、埋め込みは、低ランクの近似メッセージパッシング(AMP)メソッドのバリアントによって学習できることが示されています。
AMPアプローチにより、特定の高次元制限における推定の精度を正確に予測できます。
特に、方法論は、値ごとのサンプル数、用語の頻度、および確率分布の埋め込み相関の強度などの重要なパラメーターの関係に関する洞察を提供します。
理論的な調査結果は、合成データと実際のテキストデータの両方のシミュレーションによって検証されています。

要約(オリジナル)

Embeddings are a basic initial feature extraction step in many machine learning models, particularly in natural language processing. An embedding attempts to map data tokens to a low-dimensional space where similar tokens are mapped to vectors that are close to one another by some metric in the embedding space. A basic question is how well can such embedding be learned? To study this problem, we consider a simple probability model for discrete data where there is some ‘true’ but unknown embedding where the correlation of random variables is related to the similarity of the embeddings. Under this model, it is shown that the embeddings can be learned by a variant of low-rank approximate message passing (AMP) method. The AMP approach enables precise predictions of the accuracy of the estimation in certain high-dimensional limits. In particular, the methodology provides insight on the relations of key parameters such as the number of samples per value, the frequency of the terms, and the strength of the embedding correlation on the probability distribution. Our theoretical findings are validated by simulations on both synthetic data and real text data.

arxiv情報

著者 Golara Ahmadi Azar,Melika Emami,Alyson Fletcher,Sundeep Rangan
発行日 2025-04-09 17:46:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, stat.ML | Estimation of embedding vectors in high dimensions はコメントを受け付けていません

A Concise Mathematical Description of Active Inference in Discrete Time

要約

この論文では、離散時間におけるアクティブ推論の簡潔な数学的説明を示します。
論文の主要部分は、アクション選択メカニズムの詳細な例を含む、トピックの基本的な紹介として機能します。
付録では、より微妙な数学の詳細について説明し、すでに積極的な推論文献を研究しているが、数学的な詳細と派生を理解するのに苦労している読者をターゲットにしています。
全体を通して、正確で標準的な数学表記を強調し、既存のテキストとの一貫性を確保し、すべての方程式をアクティブな推論で広く使用されている参照にリンクします。
さらに、このペーパーで説明されているアクション選択および学習メカニズムを実装し、Pymdp環境と互換性のあるPythonコードを提供します。

要約(オリジナル)

In this paper we present a concise mathematical description of active inference in discrete time. The main part of the paper serves as a basic introduction to the topic, including a detailed example of the action selection mechanism. The appendix discusses the more subtle mathematical details, targeting readers who have already studied the active inference literature but struggle to make sense of the mathematical details and derivations. Throughout, we emphasize precise and standard mathematical notation, ensuring consistency with existing texts and linking all equations to widely used references on active inference. Additionally, we provide Python code that implements the action selection and learning mechanisms described in this paper and is compatible with pymdp environments.

arxiv情報

著者 Jesse van Oostrum,Carlotta Langer,Nihat Ay
発行日 2025-04-09 17:54:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.NC | A Concise Mathematical Description of Active Inference in Discrete Time はコメントを受け付けていません

Distributional Autoencoders Know the Score

要約

この作業は、最近導入されたクラスの自動エンコーダー – 分布プリンシパルオートエンコーダー(DPA)の新規で望ましい特性を提示します。これは、分布的に正しい再構築とエンコーディングの主成分のような解釈可能性を組み合わせています。
まず、エンコーダーのレベルセットがデータ分布のスコアに関して正確に向いていることを正式に示します。
これは、データの変動の要因を解き放つ際の方法の顕著なパフォーマンスを説明し、サンプルのみにアクセスしながら分布を回復する可能性を開きます。
スコア自体が物理的な意味を持つ設定では、データがボルツマン分布に従うときなど、この方法が最小自由エネルギー経路などの科学的に重要な量を回復できることを実証します。
第二に、データがエンコーダーによって近似できるマニホールドにある場合、マニホールドの次元を超えた最適なエンコーダのコンポーネントは、データ分布に関する追加情報をまったく運ばないことを証明します。
これは、データの関連する寸法の数を決定する潜在的に新しい方法を約束します。
したがって、結果は、DPAが、監視されていない学習の2つの異なる目標、つまりデータ分布の学習と本質的なデータの次元の学習をエレガントに組み合わせていることを示しています。

要約(オリジナル)

This work presents novel and desirable properties of a recently introduced class of autoencoders – the Distributional Principal Autoencoder (DPA) – which combines distributionally correct reconstruction with principal components-like interpretability of the encodings. First, we show formally that the level sets of the encoder orient themselves exactly with regard to the score of the data distribution. This both explains the method’s often remarkable performance in disentangling the factors of variation of the data, as well as opens up possibilities of recovering its distribution while having access to samples only. In settings where the score itself has physical meaning – such as when the data obeys the Boltzmann distribution – we demonstrate that the method can recover scientifically important quantities such as the minimum free energy path. Second, we prove that if the data lies on a manifold that can be approximated by the encoder, the optimal encoder’s components beyond the dimension of the manifold will carry absolutely no additional information about the data distribution. This promises potentially new ways of determining the number of relevant dimensions of the data. The results thus demonstrate that the DPA elegantly combines two often disparate goals of unsupervised learning: the learning of the data distribution and the learning of the intrinsic data dimensionality.

arxiv情報

著者 Andrej Leban
発行日 2025-04-09 17:56:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Distributional Autoencoders Know the Score はコメントを受け付けていません

Identifying Unknown Stochastic Dynamics via Finite expression methods

要約

確率微分方程式(SDE)のモデリングは、さまざまな科学分野で複雑な動的システムを理解するために重要です。
最近の方法では、通常、決定論的な用語と確率的用語の組み合わせを介してSDEを表すニューラルネットワークベースのモデルを使用しています。
ただし、これらのモデルは通常、解釈可能性がなく、トレーニングドメインを超えて一般化するのが困難です。
このペーパーでは、SDEの決定論的成分の解釈可能な数学的表現を導き出すために設計された象徴的な学習アプローチである有限発現法(FEX)を紹介します。
確率的成分については、FEXを高度な生成モデリング技術と統合して、SDEの包括的な表現を提供します。
線形、非線形、多次元のSDEに関する数値実験は、Fexがトレーニングドメインをはるかに超えて一般化し、ニューラルネットワークベースの方法と比較してより正確な長期予測を提供することを示しています。
FEXによって特定された象徴的な表現は、予測の精度を改善するだけでなく、システムの基礎となるダイナミクスに関する貴重な科学的洞察を提供し、新しい科学的発見への道を開いています。

要約(オリジナル)

Modeling stochastic differential equations (SDEs) is crucial for understanding complex dynamical systems in various scientific fields. Recent methods often employ neural network-based models, which typically represent SDEs through a combination of deterministic and stochastic terms. However, these models usually lack interpretability and have difficulty generalizing beyond their training domain. This paper introduces the Finite Expression Method (FEX), a symbolic learning approach designed to derive interpretable mathematical representations of the deterministic component of SDEs. For the stochastic component, we integrate FEX with advanced generative modeling techniques to provide a comprehensive representation of SDEs. The numerical experiments on linear, nonlinear, and multidimensional SDEs demonstrate that FEX generalizes well beyond the training domain and delivers more accurate long-term predictions compared to neural network-based methods. The symbolic expressions identified by FEX not only improve prediction accuracy but also offer valuable scientific insights into the underlying dynamics of the systems, paving the way for new scientific discoveries.

arxiv情報

著者 Senwei Liang,Chunmei Wang,Xingjian Xu
発行日 2025-04-09 17:57:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Identifying Unknown Stochastic Dynamics via Finite expression methods はコメントを受け付けていません

Neural Motion Simulator: Pushing the Limit of World Models in Reinforcement Learning

要約

具体化されたシステムは、外界のパターンをモデル化するだけでなく、独自の動きのダイナミクスを理解する必要があります。
効率的なスキル獲得と効果的な計画には、モーション動的モデルが不可欠です。
この作業では、現在の観測とアクションに基づいて具体化されたシステムの将来の物理的状態を予測する世界モデルであるニューラルモーションシミュレーター(MOSIM)を紹介します。
MOSIMは、物理的な状態予測で最先端のパフォーマンスを達成し、さまざまなダウンストリームタスクで競争力のあるパフォーマンスを提供します。
これは、世界モデルが十分に正確であり、正確な長期予測を実行すると、想像上の世界での効率的なスキル獲得を促進し、ゼロショットの強化学習を可能にすることさえできることを示しています。
さらに、MOSIMは、モデルフリーの強化学習(RL)アルゴリズムをモデルベースのアプローチに変換し、RLアルゴリズム開発からの物理環境モデリングを効果的に分離することができます。
この分離により、RLアルゴリズムと世界モデリングの独立した進歩が可能になり、サンプルの効率が大幅に改善され、一般化能力が向上します。
私たちの調査結果は、モーションダイナミクスの世界モデルが、より多用途で有能な具体化されたシステムを開発するための有望な方向であることを強調しています。

要約(オリジナル)

An embodied system must not only model the patterns of the external world but also understand its own motion dynamics. A motion dynamic model is essential for efficient skill acquisition and effective planning. In this work, we introduce the neural motion simulator (MoSim), a world model that predicts the future physical state of an embodied system based on current observations and actions. MoSim achieves state-of-the-art performance in physical state prediction and provides competitive performance across a range of downstream tasks. This works shows that when a world model is accurate enough and performs precise long-horizon predictions, it can facilitate efficient skill acquisition in imagined worlds and even enable zero-shot reinforcement learning. Furthermore, MoSim can transform any model-free reinforcement learning (RL) algorithm into a model-based approach, effectively decoupling physical environment modeling from RL algorithm development. This separation allows for independent advancements in RL algorithms and world modeling, significantly improving sample efficiency and enhancing generalization capabilities. Our findings highlight that world models for motion dynamics is a promising direction for developing more versatile and capable embodied systems.

arxiv情報

著者 Chenjie Hao,Weyl Lu,Yifan Xu,Yubei Chen
発行日 2025-04-09 17:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Neural Motion Simulator: Pushing the Limit of World Models in Reinforcement Learning はコメントを受け付けていません

CAT: Circular-Convolutional Attention for Sub-Quadratic Transformers

要約

変圧器は、自然言語処理とコンピュータービジョンの顕著なブレークスルーを駆動していますが、標準的な注意メカニズムは依然としてO(n^2)の複雑さを課し、より長いシーケンスにスケーラビリティを妨げます。
表現力を犠牲にすることなく複雑さを減らすために循環畳み込みを効率的に適用するフーリエベースのアプローチである円形の巻き込みの注意(CAT)を紹介します。
CATはO(nlogn)計算を達成し、完全に接続されたレイヤーを合理化することにより学習可能なパラメーターが少なくなり、より重い操作が導入されないため、Imagenet-1KやWikitext-103などの大規模なベンチマークでのナイーブなPytorchの実装での一貫した精度の改善と約10%のスピードアップが得られます。
Engineering-somorphism Frameworkに基づいて、CATのデザインは、実用的な効率と実装の容易さを提供するだけでなく、次世代の高性能変圧器アーキテクチャの開発を導く洞察も提供します。
最後に、私たちのアブレーション研究は、猫の成功の根底にある重要な条件を強調し、スケーラブルな注意メカニズムのためのより広い原則に光を当てています。

要約(オリジナル)

Transformers have driven remarkable breakthroughs in natural language processing and computer vision, yet their standard attention mechanism still imposes O(N^2) complexity, hindering scalability to longer sequences. We introduce Circular-convolutional ATtention (CAT), a Fourier-based approach that efficiently applies circular convolutions to reduce complexity without sacrificing representational power. CAT achieves O(NlogN) computations, requires fewer learnable parameters by streamlining fully-connected layers, and introduces no heavier operations, resulting in consistent accuracy improvements and about a 10% speedup in naive PyTorch implementations on large-scale benchmarks such as ImageNet-1k and WikiText-103. Grounded in an engineering-isomorphism framework, CAT’s design not only offers practical efficiency and ease of implementation but also provides insights to guide the development of next-generation, high-performance Transformer architectures. Finally, our ablation studies highlight the key conditions underlying CAT’s success, shedding light on broader principles for scalable attention mechanisms.

arxiv情報

著者 Yoshihiro Yamada
発行日 2025-04-09 09:08:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | CAT: Circular-Convolutional Attention for Sub-Quadratic Transformers はコメントを受け付けていません

GWQ: Gradient-Aware Weight Quantization for Large Language Models

要約

大規模な言語モデル(LLMS)は、複雑な言語タスクの解決において印象的なパフォーマンスを示しています。
ただし、その多数のパラメーターは、展開に大きな課題を示しています。
そのため、LLMSを低ビットに圧縮すると、リソースが制約のあるデバイスに展開できます。
この問題に対処するために、勾配を使用するための勾配を活用する低ビット重量量子化の最初の量子化アプローチであるグラジエントアウェア重量量子化(GWQ)を提案します。
GWQは、FP16精度で優先的に上位1 \%の外れ値を保持しますが、残りの非頻繁な重量は低ビットに保存されます。
言語モデリング、接地検出、大規模なマルチタスク言語の理解、視覚言語の質問、および回答など、さまざまなタスクでGWQを広く評価します。
結果は、GWQによって定量化されたモデルが他の量子化法よりも優れたパフォーマンスを示していることを示しています。
量子化プロセス中、GWQは効果的な量を実現するために1つのキャリブレーションセットのみが必要です。
また、GWQは、元のモデルと比較して1.2倍の推論スピードアップを達成し、推論メモリを効果的に削減します。

要約(オリジナル)

Large language models (LLMs) show impressive performance in solving complex language tasks. However, its large number of parameters presents significant challenges for the deployment. So, compressing LLMs to low bits can enable to deploy on resource-constrained devices. To address this problem, we propose gradient-aware weight quantization (GWQ), the first quantization approach for low-bit weight quantization that leverages gradients to localize outliers, requiring only a minimal amount of calibration data for outlier detection. GWQ retains the top 1\% outliers preferentially at FP16 precision, while the remaining non-outlier weights are stored in a low-bit. We widely evaluate GWQ on different task include language modeling, grounding detection, massive multitask language understanding and vision-language question and answering. Results show that models quantified by GWQ performs better than other quantization method. During quantization process, GWQ only need one calibration set to realize effective quant. Also, GWQ achieves 1.2x inference speedup in comparison to the original model and effectively reduces the inference memory.

arxiv情報

著者 Yihua Shao,Yan Gu,Siyu Chen,Haiyang Liu,Zijian Ling,Minxi Yan,Ziyang Yan,Chenyu Zhang,Michele Magno,Haotong Qin,Yan Wang,Jingcai Guo,Ling Shao,Hao Tang
発行日 2025-04-09 09:09:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | GWQ: Gradient-Aware Weight Quantization for Large Language Models はコメントを受け付けていません

MemoRAG: Boosting Long Context Processing with Global Memory-Enhanced Retrieval Augmentation

要約

長いコンテキストの処理は、大規模な言語モデル(LLMS)にとって重要な課題です。
最近の進歩により、LLMは以前よりもはるかに長いコンテキスト(32Kまたは128Kトークンなど)を処理することができますが、計算的に高価であり、多くのアプリケーションではまだ不十分です。
検索された生成(RAG)は、この問題に対処するための有望な戦略と考えられています。
ただし、従来のRAGメソッドは、2つの根本的な要件のために固有の制限に直面しています。1)明示的に述べられたクエリと2)十分に構造化された知識。
ただし、これらの条件は、一般的に長いコンテキスト処理タスクを保持していません。
この作業では、グローバルメモリの高度検索に力を与えた新しいぼろきれのフレームワークであるメモグを提案します。
メモラグは、デュアルシステムアーキテクチャを備えています。
まず、長いコンテキストのグローバルなメモリを作成するために、軽いが長距離システムを使用します。
タスクが提示されると、ドラフトの回答が生成され、検索ツールが長いコンテキスト内で関連情報を見つけるための有用な手がかりを提供します。
第二に、それは高価であるが表現力豊かなシステムを活用して、取得した情報に基づいて最終的な答えを生成します。
この基本的なフレームワークに基づいて、KV圧縮の形でメモリモジュールを実現し、Generation Qualityのフィードバック(別名RLGF)からの暗記能力を強化します。
私たちの実験では、メモラグは、従来のぼろきれの方法が苦労している複雑なシナリオだけでなく、ラグが通常適用されるよりシンプルなシナリオだけでなく、さまざまな長いコンテスト評価タスクで優れたパフォーマンスを実現します。

要約(オリジナル)

Processing long contexts presents a significant challenge for large language models (LLMs). While recent advancements allow LLMs to handle much longer contexts than before (e.g., 32K or 128K tokens), it is computationally expensive and can still be insufficient for many applications. Retrieval-Augmented Generation (RAG) is considered a promising strategy to address this problem. However, conventional RAG methods face inherent limitations because of two underlying requirements: 1) explicitly stated queries, and 2) well-structured knowledge. These conditions, however, do not hold in general long-context processing tasks. In this work, we propose MemoRAG, a novel RAG framework empowered by global memory-augmented retrieval. MemoRAG features a dual-system architecture. First, it employs a light but long-range system to create a global memory of the long context. Once a task is presented, it generates draft answers, providing useful clues for the retrieval tools to locate relevant information within the long context. Second, it leverages an expensive but expressive system, which generates the final answer based on the retrieved information. Building upon this fundamental framework, we realize the memory module in the form of KV compression, and reinforce its memorization and cluing capacity from the Generation quality’s Feedback (a.k.a. RLGF). In our experiments, MemoRAG achieves superior performances across a variety of long-context evaluation tasks, not only complex scenarios where traditional RAG methods struggle, but also simpler ones where RAG is typically applied.

arxiv情報

著者 Hongjin Qian,Zheng Liu,Peitian Zhang,Kelong Mao,Defu Lian,Zhicheng Dou,Tiejun Huang
発行日 2025-04-09 09:09:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | MemoRAG: Boosting Long Context Processing with Global Memory-Enhanced Retrieval Augmentation はコメントを受け付けていません