PEAKS: Selecting Key Training Examples Incrementally via Prediction Error Anchored by Kernel Similarity

要約

深い学習が引き続き、より広大なデータセットによって推進されているため、どの例が一般化にとって最も重要であるかを理解することが重要な問題になりました。
データ選択の進捗状況は続きますが、新たなアプリケーションでは、動的なコンテキストでこの問題を研究する必要があります。
このギャップを埋めるために、インクリメンタルデータ選択(IDS)の問題を提起します。例では、例は連続ストリームとして到着し、完全なデータソースにアクセスせずに選択する必要があります。
この設定では、学習者は、基礎となるタスクを同時に学習しながら、事前定義されたサイズのトレーニングデータセットを徐々に構築する必要があります。
IDSでは、モデル状態に対する新しいサンプルの影響は、特徴空間における幾何学的関係と予測誤差の両方に根本的に依存することがわかります。
この洞察を活用して、IDSに合わせた効率的なデータ選択方法であるピーク(カーネルの類似性によって固定された予測エラー)を提案します。
当社の包括的な評価は、ピークが既存の選択戦略を常に上回ることを示しています。
さらに、トレーニングデータサイズが実際のデータセットで増加するため、ピークはランダム選択よりもますます優れたパフォーマンスリターンを生み出します。

要約(オリジナル)

As deep learning continues to be driven by ever-larger datasets, understanding which examples are most important for generalization has become a critical question. While progress in data selection continues, emerging applications require studying this problem in dynamic contexts. To bridge this gap, we pose the Incremental Data Selection (IDS) problem, where examples arrive as a continuous stream, and need to be selected without access to the full data source. In this setting, the learner must incrementally build a training dataset of predefined size while simultaneously learning the underlying task. We find that in IDS, the impact of a new sample on the model state depends fundamentally on both its geometric relationship in the feature space and its prediction error. Leveraging this insight, we propose PEAKS (Prediction Error Anchored by Kernel Similarity), an efficient data selection method tailored for IDS. Our comprehensive evaluations demonstrate that PEAKS consistently outperforms existing selection strategies. Furthermore, PEAKS yields increasingly better performance returns than random selection as training data size grows on real-world datasets.

arxiv情報

著者 Mustafa Burak Gurbuz,Xingyu Zheng,Constantine Dovrolis
発行日 2025-04-07 16:42:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | PEAKS: Selecting Key Training Examples Incrementally via Prediction Error Anchored by Kernel Similarity はコメントを受け付けていません

Real-Time Evaluation Models for RAG: Who Detects Hallucinations Best?

要約

この記事では、検索された生成(RAG)の幻覚を自動的に検出するための評価モデルを調査し、6つのRAGアプリケーションにわたるパフォーマンスの包括的なベンチマークを提示します。
私たちの研究に含まれる方法には、LLM-as-a-Judge、Prometheus、Lynx、The Hughes Hallucination Evaluation Model(HHEM)、および信頼できる言語モデル(TLM)が含まれます。
これらのアプローチはすべて参照フリーであり、誤ったLLM応答をキャッチするために地上の真実の回答/ラベルを必要としません。
私たちの研究は、多様なRAGアプリケーション全体で、これらのアプローチのいくつかは、高精度/リコールで誤ったRAG応答を一貫して検出することを明らかにしています。

要約(オリジナル)

This article surveys Evaluation models to automatically detect hallucinations in Retrieval-Augmented Generation (RAG), and presents a comprehensive benchmark of their performance across six RAG applications. Methods included in our study include: LLM-as-a-Judge, Prometheus, Lynx, the Hughes Hallucination Evaluation Model (HHEM), and the Trustworthy Language Model (TLM). These approaches are all reference-free, requiring no ground-truth answers/labels to catch incorrect LLM responses. Our study reveals that, across diverse RAG applications, some of these approaches consistently detect incorrect RAG responses with high precision/recall.

arxiv情報

著者 Ashish Sardana
発行日 2025-04-07 16:49:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Real-Time Evaluation Models for RAG: Who Detects Hallucinations Best? はコメントを受け付けていません

MiLo: Efficient Quantized MoE Inference with Mixture of Low-Rank Compensators

要約

大規模なパラメーターを使用して、混合物(MOE)モデルを効率的に展開するための重要なアプローチは量子化です。
ただし、最先端のMOEモデルは、4ビット未満などの極端な量子化により、視線不可能な精度損失に苦しんでいます。
これに対処するために、MILOを紹介します。MILOは、低ランク補償器の混合物で高量子化されたMoEを増強する新しい方法です。
これらの補償器は、少量の追加メモリのみを消費しますが、極端な量子化から精度の損失を大幅に回収します。
Miloはまた、Hybridの密な副像のためにMoemodelsが重量全体で特徴的な特性を示すことを特定し、適応性のあるランク選択ポリシーを使用して、反復的な最適化を使用して精度のギャップを閉じます。
MILOはキャリブレーションデータに依存せず、キャリブレーションセットにオーバーフィッティングすることなく、異なるMOEモデルとデータセットに一般化することができます。
3ビットなどの極端な量子化のハードウェアの非効率性を回避するために、MILOはテンソルコアに優しい3ビットカーネルを開発し、3ビットの量子化されたMOEモデルで測定されたレイテンシスピードアップを可能にします。
私たちの評価は、MILOがさまざまなタスクにわたってSota Moeモデルの既存の方法を上回ることを示しています。

要約(オリジナル)

A critical approach for efficiently deploying Mixture-of-Experts (MoE) models with massive parameters is quantization. However, state-of-the-art MoE models suffer from non-negligible accuracy loss with extreme quantization, such as under 4 bits. To address this, we introduce MiLo, a novel method that augments highly quantized MoEs with a mixture of low-rank compensators. These compensators consume only a small amount of additional memory but significantly recover accuracy loss from extreme quantization. MiLo also identifies that MoEmodels exhibit distinctive characteristics across weights due to their hybrid dense-sparse architectures, and employs adaptive rank selection policies along with iterative optimizations to close the accuracy gap. MiLo does not rely on calibration data, allowing it to generalize to different MoE models and datasets without overfitting to a calibration set. To avoid the hardware inefficiencies of extreme quantization, such as 3-bit, MiLo develops Tensor Core-friendly 3-bit kernels, enabling measured latency speedups on 3-bit quantized MoE models. Our evaluation shows that MiLo outperforms existing methods on SoTA MoE models across various tasks.

arxiv情報

著者 Beichen Huang,Yueming Yuan,Zelei Shao,Minjia Zhang
発行日 2025-04-07 17:09:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | MiLo: Efficient Quantized MoE Inference with Mixture of Low-Rank Compensators はコメントを受け付けていません

Aggregating time-series and image data: functors and double functors

要約

ドメインのサブセットを介した時系列または画像データの集約は、データサイエンスの基本的なタスクです。
多くの既知の集約操作は、適切な(ダブル)カテゴリの(ダブル)ファンサーとして解釈できることを示しています。
このような機能的集約は、Blellochの並列スキャンアルゴリズムの簡単な拡張を介して並列実装に適しています。
既存の操作に関する統一された視点を提供することに加えて、時系列と画像データの新しい集約操作を提案することができます。

要約(オリジナル)

Aggregation of time-series or image data over subsets of the domain is a fundamental task in data science. We show that many known aggregation operations can be interpreted as (double) functors on appropriate (double) categories. Such functorial aggregations are amenable to parallel implementation via straightforward extensions of Blelloch’s parallel scan algorithm. In addition to providing a unified viewpoint on existing operations, it allows us to propose new aggregation operations for time-series and image data.

arxiv情報

著者 Joscha Diehl
発行日 2025-04-07 17:12:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68W10, cs.LG, math.CT | Aggregating time-series and image data: functors and double functors はコメントを受け付けていません

Feature Selection for Latent Factor Models

要約

機能の選択は、高次元のデータセットで関連する機能を特定し、「次元の呪い」を軽減し、機械学習パフォーマンスを向上させるために重要です。
分類のための従来の機能選択方法すべてのクラスのデータを使用して、各クラスの機能を選択します。
このホワイトペーパーでは、低ランクの生成方法に基づいてクラスモデルを使用し、信号対雑音比(SNR)機能選択基準を導入するクラスモデルを個別に選択する機能選択方法について説明します。
この新しいアプローチには、特定の仮定の下で理論的な真の機能回復保証があり、標準分類データセットの既存の機能選択方法を上回ることが示されています。

要約(オリジナル)

Feature selection is crucial for pinpointing relevant features in high-dimensional datasets, mitigating the ‘curse of dimensionality,’ and enhancing machine learning performance. Traditional feature selection methods for classification use data from all classes to select features for each class. This paper explores feature selection methods that select features for each class separately, using class models based on low-rank generative methods and introducing a signal-to-noise ratio (SNR) feature selection criterion. This novel approach has theoretical true feature recovery guarantees under certain assumptions and is shown to outperform some existing feature selection methods on standard classification datasets.

arxiv情報

著者 Rittwika Kansabanik,Adrian Barbu
発行日 2025-04-07 17:23:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.AP | Feature Selection for Latent Factor Models はコメントを受け付けていません

Covariant Gradient Descent

要約

勾配降下法の明確に共変量の定式化を提示し、任意の座標系と一般的な湾曲した訓練可能なスペース全体の一貫性を確保します。
最適化ダイナミクスは、勾配の最初と2番目の統計モーメントから計算された共変力ベクトルと共変量メートルテンソルを使用して定義されます。
これらのモーメントは、線形計算の複雑さを維持する指数関数的な重量関数を使用した時間平均によって推定されます。
RMSPropやAdamなどの一般的に使用される最適化方法は、共変動勾配降下(CGD)の特別な制限に対応しており、これらの方法をさらに一般化および改善する方法を示していることを示します。

要約(オリジナル)

We present a manifestly covariant formulation of the gradient descent method, ensuring consistency across arbitrary coordinate systems and general curved trainable spaces. The optimization dynamics is defined using a covariant force vector and a covariant metric tensor, both computed from the first and second statistical moments of the gradients. These moments are estimated through time-averaging with an exponential weight function, which preserves linear computational complexity. We show that commonly used optimization methods such as RMSProp and Adam correspond to special limits of the covariant gradient descent (CGD) and demonstrate how these methods can be further generalized and improved.

arxiv情報

著者 Dmitry Guskov,Vitaly Vanchurin
発行日 2025-04-07 17:25:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Covariant Gradient Descent はコメントを受け付けていません

Is Adversarial Training with Compressed Datasets Effective?

要約

データセット凝縮(DC)は、より大きなデータセットから小さく、合成のデータセットを生成する最近のクラスのデータセット圧縮方法を指します。
この合成データセットは、元のデータセットの重要な情報を保持することを目的としており、完全なデータセットでトレーニングされたものに匹敵するパフォーマンスレベルを実現できるようにトレーニングされたモデルを可能にします。
現在のほとんどのDCメソッドは、主にデータ予算が限られている高いテストパフォーマンスを達成することに関係しており、敵対的な堅牢性の問題に直接対処していません。
この作業では、圧縮データセットで訓練されたモデルに対する敵対的な堅牢性の影響を調査します。
DCメソッドから得られた圧縮データセットが、モデルに敵対的な堅牢性を伝達するのに効果的ではないことを示します。
データセットの圧縮効率と敵対的堅牢性を同時に改善するためのソリューションとして、データセットの最小限のカバー(MFC)を見つけることに基づいて、堅牢性を認識したデータセット圧縮法を提示します。
提案された方法は、(1)一般化された敵対的損失を最小限に抑えることにより、(2)MFCに敵対的なトレーニングを適用する際のDCメソッドよりも効果的であることが証明されます。

要約(オリジナル)

Dataset Condensation (DC) refers to the recent class of dataset compression methods that generate a smaller, synthetic, dataset from a larger dataset. This synthetic dataset aims to retain the essential information of the original dataset, enabling models trained on it to achieve performance levels comparable to those trained on the full dataset. Most current DC methods have mainly concerned with achieving high test performance with limited data budget, and have not directly addressed the question of adversarial robustness. In this work, we investigate the impact of adversarial robustness on models trained with compressed datasets. We show that the compressed datasets obtained from DC methods are not effective in transferring adversarial robustness to models. As a solution to improve dataset compression efficiency and adversarial robustness simultaneously, we present a robustness-aware dataset compression method based on finding the Minimal Finite Covering (MFC) of the dataset. The proposed method is (1) provably robust by minimizing the generalized adversarial loss, (2) more effective than DC methods when applying adversarial training over MFC, (3) obtained by a one-time computation and is applicable for any model.

arxiv情報

著者 Tong Chen,Raghavendra Selvan
発行日 2025-04-07 17:31:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Is Adversarial Training with Compressed Datasets Effective? はコメントを受け付けていません

Understanding Virtual Nodes: Oversquashing and Node Heterogeneity

要約

メッセージパッシングニューラルネットワーク(MPNN)は、さまざまなアプリケーションで説得力のある成功を収めていますが、過剰射撃問題や長距離相互作用をキャプチャできないなどの制限を示しています。
仮想ノード(VN)でMPNNを増強すると、レイヤー集約の局所的な制約が削除され、さまざまなベンチマークのパフォーマンスが向上することがわかりました。
過度のスキャッシュおよび感度分析のレンズを通じて、VNSとその利点の役割とその利点の包括的な理論分析を提供します。
まず、正確には、ネットワークの混合能力に関するVNSが提供する改善、したがって、上場の過剰射撃の緩和において、基礎となるトポロジーにどのように依存するかを特徴づけます。
次に、グラフ変換者(GTS)とは異なり、VNの古典的なインスタンス化は、異なるノードに均一な重要性を割り当てるように制約されることがよくあります。
その結果、同じ計算の複雑さを持つVNのバリアントを提案します。これは、グラフ構造に基づいてノードに対して異なる感度を持つ可能性があります。
これは、グラフレベルのタスクに非常に効果的で計算効率の良いベースラインであることを示します。

要約(オリジナル)

While message passing neural networks (MPNNs) have convincing success in a range of applications, they exhibit limitations such as the oversquashing problem and their inability to capture long-range interactions. Augmenting MPNNs with a virtual node (VN) removes the locality constraint of the layer aggregation and has been found to improve performance on a range of benchmarks. We provide a comprehensive theoretical analysis of the role of VNs and benefits thereof, through the lenses of oversquashing and sensitivity analysis. First, we characterize, precisely, how the improvement afforded by VNs on the mixing abilities of the network and hence in mitigating oversquashing, depends on the underlying topology. We then highlight that, unlike Graph-Transformers (GTs), classical instantiations of the VN are often constrained to assign uniform importance to different nodes. Consequently, we propose a variant of VN with the same computational complexity, which can have different sensitivity to nodes based on the graph structure. We show that this is an extremely effective and computationally efficient baseline for graph-level tasks.

arxiv情報

著者 Joshua Southern,Francesco Di Giovanni,Michael Bronstein,Johannes F. Lutzeyer
発行日 2025-04-07 17:33:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Understanding Virtual Nodes: Oversquashing and Node Heterogeneity はコメントを受け付けていません

Learning Coarse-Grained Dynamics on Graph

要約

グラフニューラルネットワーク(GNN)非マルコビアンモデリングフレームワークを検討して、グラフ上の粗粒の動的システムを識別します。
私たちの主なアイデアは、Mori-Zwanzigメモリ用語の主要な用語がグラフトポロジをコードする粗粒相互作用係数にどのように依存するかを調べることにより、GNNアーキテクチャを体系的に決定することです。
この分析に基づいて、$ k $ -hopの動的相互作用を考慮する適切なGNNアーキテクチャは、少なくとも$ 2K $ステップでメッセージパッシング(MP)メカニズムを使用する必要があることがわかりました。
また、正確な閉鎖モデルに必要なメモリの長さは、相互作用強度がホップ距離の関数として減衰する電力法則を示すという仮定の下で、相互作用強度の関数として減少すると推測します。
2つの例で数値デモンストレーションをサポートして、異種のKuramoto発振器モデルと電力システムは、提案されたGNNアーキテクチャが固定および時変グラフトポロジの下で粗粒ダイナミクスを予測できることを示唆しています。

要約(オリジナル)

We consider a Graph Neural Network (GNN) non-Markovian modeling framework to identify coarse-grained dynamical systems on graphs. Our main idea is to systematically determine the GNN architecture by inspecting how the leading term of the Mori-Zwanzig memory term depends on the coarse-grained interaction coefficients that encode the graph topology. Based on this analysis, we found that the appropriate GNN architecture that will account for $K$-hop dynamical interactions has to employ a Message Passing (MP) mechanism with at least $2K$ steps. We also deduce that the memory length required for an accurate closure model decreases as a function of the interaction strength under the assumption that the interaction strength exhibits a power law that decays as a function of the hop distance. Supporting numerical demonstrations on two examples, a heterogeneous Kuramoto oscillator model and a power system, suggest that the proposed GNN architecture can predict the coarse-grained dynamics under fixed and time-varying graph topologies.

arxiv情報

著者 Yin Yu,John Harlim,Daning Huang,Yan Li
発行日 2025-04-07 17:44:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG, cs.NA, math.NA | Learning Coarse-Grained Dynamics on Graph はコメントを受け付けていません

Dimension-Free Convergence of Diffusion Models for Approximate Gaussian Mixtures

要約

拡散モデルは、特に反復除去を通じて高品質のサンプルを生成する際に、並外れた生成パフォーマンスによって区別されます。
現在の理論では、正確なサンプル生成に必要な除去手順の数は、データの寸法で直線的にスケーリングする必要があることが示唆されていますが、これは拡散確率モデル(DDPMS)を除去するような広く使用されているアルゴリズムの実用的な効率を反映していないことを示唆しています。
このペーパーでは、ガウス混合モデル(GMM)によって適用される可能性のある複雑な高次元分布からのサンプリングにおける拡散モデルの有効性を調査します。
これらの分布の場合、私たちの主な結果は、DDPMが最大で$ \ widetilde {o}(1/\ varepsilon)$ iterationsを取得して、$ \ varepsilon $ accurate districationを達成することを示しています。
さらに、この結果は推定エラーを採点するために堅牢なままです。
これらの発見は、GMMSの普遍的な近似能力を考慮して、高次元の設定での拡散モデルの顕著な有効性を強調し、それらの実際的な成功に関する理論的洞察を提供します。

要約(オリジナル)

Diffusion models are distinguished by their exceptional generative performance, particularly in producing high-quality samples through iterative denoising. While current theory suggests that the number of denoising steps required for accurate sample generation should scale linearly with data dimension, this does not reflect the practical efficiency of widely used algorithms like Denoising Diffusion Probabilistic Models (DDPMs). This paper investigates the effectiveness of diffusion models in sampling from complex high-dimensional distributions that can be well-approximated by Gaussian Mixture Models (GMMs). For these distributions, our main result shows that DDPM takes at most $\widetilde{O}(1/\varepsilon)$ iterations to attain an $\varepsilon$-accurate distribution in total variation (TV) distance, independent of both the ambient dimension $d$ and the number of components $K$, up to logarithmic factors. Furthermore, this result remains robust to score estimation errors. These findings highlight the remarkable effectiveness of diffusion models in high-dimensional settings given the universal approximation capability of GMMs, and provide theoretical insights into their practical success.

arxiv情報

著者 Gen Li,Changxiao Cai,Yuting Wei
発行日 2025-04-07 17:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.NA, math.ST, stat.ML, stat.TH | Dimension-Free Convergence of Diffusion Models for Approximate Gaussian Mixtures はコメントを受け付けていません