Smoothed Distance Kernels for MMDs and Applications in Wasserstein Gradient Flows

要約

負の距離カーネル$ k(x、y):= – \ | x -y \ | $は、統計における最大平均不一致(MMD)の定義で使用され、さまざまなアプリケーションで好ましい数値結果につながりました。
特に、高次元カーネル合計を処理するためのいわゆるスライス技術は、距離カーネルの単純なパラメーターのない構造から利益を得ます。
ただし、$ x = y $の滑らかさのため、古典的な理論的結果のほとんどは
対応するMMD関数のwasserstein勾配流については、もはや当てはまらない。
このホワイトペーパーでは、負の距離カーネルの好ましい特性を条件付きで正の明確であると保持する新しいカーネルを提案します。
私たちの構造は、絶対値関数の単純な1Dスムージング手順に基づいています。
数値結果は、新しいカーネルが勾配降下法の負の距離カーネルと同様にうまく機能することを示していますが、現在は理論的な保証があります。

要約(オリジナル)

Negative distance kernels $K(x,y) := – \|x-y\|$ were used in the definition of maximum mean discrepancies (MMDs) in statistics and lead to favorable numerical results in various applications. In particular, so-called slicing techniques for handling high-dimensional kernel summations profit from the simple parameter-free structure of the distance kernel. However, due to its non-smoothness in $x=y$, most of the classical theoretical results, e.g. on Wasserstein gradient flows of the corresponding MMD functional do not longer hold true. In this paper, we propose a new kernel which keeps the favorable properties of the negative distance kernel as being conditionally positive definite of order one with a nearly linear increase towards infinity and a simple slicing structure, but is Lipschitz differentiable now. Our construction is based on a simple 1D smoothing procedure of the absolute value function followed by a Riemann-Liouville fractional integral transform. Numerical results demonstrate that the new kernel performs similarly well as the negative distance kernel in gradient descent methods, but now with theoretical guarantees.

arxiv情報

著者 Nicolaj Rux,Michael Quellmalz,Gabriele Steidl
発行日 2025-04-10 14:57:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.FA, math.PR, stat.ML | Smoothed Distance Kernels for MMDs and Applications in Wasserstein Gradient Flows はコメントを受け付けていません

CAGN-GAT Fusion: A Hybrid Contrastive Attentive Graph Neural Network for Network Intrusion Detection

要約

サイバーセキュリティの脅威が増加しており、ネットワーク侵入の検出が不可欠になっています。
従来の機械学習モデルは、その効率のため、リソース制限環境では引き続き効果的であり、パラメーターが少なくなり、計算時間が短くなります。
ただし、短くて非常に不均衡なデータセットを処理することは依然として困難です。
この研究では、対照的なグラフネットワークとグラフ注意ネットワーク(Cagn-Gat Fusion)の融合を提案し、グラフニューラルネットワーク(GNNS)と従来のMLモデルの両方を含む15の他のモデルに対してベンチマークします。
私たちの評価は、4つのベンチマークデータセット(KDD-CUP-1999、NSL-KDD、UNSW-NB15、およびCICIDS2017)で実施されます。
結果は、Cagn-Gat融合が、すべてのデータセットで最高のパフォーマンスを達成していない場合でも、安定した競争の精度、Recall、およびF1スコアを示していることを示しています。
また、私たちの分析では、接続の小さな変化(エッジ摂動)や特徴の選択的隠蔽(機能マスキング)の改善など、適応グラフ構造技術の影響も強調されています。
調査結果は、GNN、特にCagn-gat融合が堅牢で計算上効率的であり、リソース制約の環境に適していることを確認しています。
将来の作業では、グラフセージレイヤーとマルチビューグラフ構造技術を検討して、適応性と検出の精度をさらに高めます。

要約(オリジナル)

Cybersecurity threats are growing, making network intrusion detection essential. Traditional machine learning models remain effective in resource-limited environments due to their efficiency, requiring fewer parameters and less computational time. However, handling short and highly imbalanced datasets remains challenging. In this study, we propose the fusion of a Contrastive Attentive Graph Network and Graph Attention Network (CAGN-GAT Fusion) and benchmark it against 15 other models, including both Graph Neural Networks (GNNs) and traditional ML models. Our evaluation is conducted on four benchmark datasets (KDD-CUP-1999, NSL-KDD, UNSW-NB15, and CICIDS2017) using a short and proportionally imbalanced dataset with a constant size of 5000 samples to ensure fairness in comparison. Results show that CAGN-GAT Fusion demonstrates stable and competitive accuracy, recall, and F1-score, even though it does not achieve the highest performance in every dataset. Our analysis also highlights the impact of adaptive graph construction techniques, including small changes in connections (edge perturbation) and selective hiding of features (feature masking), improving detection performance. The findings confirm that GNNs, particularly CAGN-GAT Fusion, are robust and computationally efficient, making them well-suited for resource-constrained environments. Future work will explore GraphSAGE layers and multiview graph construction techniques to further enhance adaptability and detection accuracy.

arxiv情報

著者 Md Abrar Jahin,Shahriar Soudeep,M. F. Mridha,Raihan Kabir,Md Rashedul Islam,Yutaka Watanobe
発行日 2025-04-10 15:11:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | CAGN-GAT Fusion: A Hybrid Contrastive Attentive Graph Neural Network for Network Intrusion Detection はコメントを受け付けていません

Pychop: Emulating Low-Precision Arithmetic in Numerical Methods and Neural Networks

要約

計算科学における低精度の算術に対する需要の高まりに動機付けられているため、数値分析と機械学習のための支配的なプログラミング言語と広く見なされているPythonの低精度エミュレーションを活用します。
低精度トレーニングは、モデルの忠実度を維持しながら、より効率的な計算とメモリとエネルギーの消費を減らすことにより、深い学習に革命をもたらしました。
低精度計算の数値実験と探索をより適切に可能にするために、Pychopライブラリを開発しました。Pychopライブラリは、Pythonのカスタマイズ可能なフローティングポイント形式と包括的な丸めモードセットをサポートし、ユーザーが多数のアプリケーションで迅速で低精度エミュレーションから利益を得ることができます。
Pychopはまた、PytorchとJaxの両方のインターフェイスを導入し、ニューラルネットワークトレーニングのためにGPUで効率的な低精度エミュレーションを可能にし、比類のない柔軟性を備えた推論を可能にします。
この論文では、PyChopの設計、実装、検証、および実用的なアプリケーションの包括的な説明を提供し、効率的な混合精度アルゴリズムを進めるための基礎ツールとして確立します。
さらに、公開されたデータセットを使用した画像分類とオブジェクト検出の低精度エミュレーションに関する経験的結果を示し、低精度の使用の感度を示し、その影響に対する貴重な洞察を提供します。
Pychopは、数値精度の効果に関する詳細な調査を可能にし、新しいハードウェアアクセラレータの開発を促進し、既存の深い学習ワークフローにシームレスに統合します。
ソフトウェアと実験コードは、https://github.com/inexascale/pychopで公開されています。

要約(オリジナル)

Motivated by the growing demand for low-precision arithmetic in computational science, we exploit lower-precision emulation in Python — widely regarded as the dominant programming language for numerical analysis and machine learning. Low-precision training has revolutionized deep learning by enabling more efficient computation and reduced memory and energy consumption while maintaining model fidelity. To better enable numerical experimentation with and exploration of low precision computation, we developed the Pychop library, which supports customizable floating-point formats and a comprehensive set of rounding modes in Python, allowing users to benefit from fast, low-precision emulation in numerous applications. Pychop also introduces interfaces for both PyTorch and JAX, enabling efficient low-precision emulation on GPUs for neural network training and inference with unparalleled flexibility. In this paper, we offer a comprehensive exposition of the design, implementation, validation, and practical application of Pychop, establishing it as a foundational tool for advancing efficient mixed-precision algorithms. Furthermore, we present empirical results on low-precision emulation for image classification and object detection using published datasets, illustrating the sensitivity of the use of low precision and offering valuable insights into its impact. Pychop enables in-depth investigations into the effects of numerical precision, facilitates the development of novel hardware accelerators, and integrates seamlessly into existing deep learning workflows. Software and experimental code are publicly available at https://github.com/inEXASCALE/pychop.

arxiv情報

著者 Erin Carson,Xinye Chen
発行日 2025-04-10 15:12:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.NA | Pychop: Emulating Low-Precision Arithmetic in Numerical Methods and Neural Networks はコメントを受け付けていません

Universal Architectures for the Learning of Polyhedral Norms and Convex Regularizers

要約

このペーパーでは、限られたデータからの画像の再構築を導くために、凸状の正統派を学習するタスクに対処します。
再構成が振幅等式であることを課すことにより、セミノームの力として表現できるものに許容される機能のクラスを絞り込みます。
次に、そのような機能が、一時的な基準の助けを借りて任意の精度に近似できることを示します。
特に、このようなシステムの2つの二重パラメーター化を識別します。(i)学習可能な辞書を含む$ \ ell_1 $ -penaltyを持つ合成フォーム。
(ii)トレーニング可能な正則化オペレーターを伴う$ \ ell_ \ infty $ pernaltyを備えた分析フォーム。
幾何学的な洞察を提供し、2つのフォームが普遍的であることを証明した後、私たちは、簡単にトレーニングできる特定のアーキテクチャ(加重$ \ ELL_1 $ペナルティを備えたタイトなフレーム)に依存する実装を提案します。
除去と生物医学的画像の再構築への使用を説明します。
提案されたフレームワークは、圧縮センシングのスパースベースの方法よりも優れていることがわかりますが、本質的に同じ収束と堅牢性の保証を提供します。

要約(オリジナル)

This paper addresses the task of learning convex regularizers to guide the reconstruction of images from limited data. By imposing that the reconstruction be amplitude-equivariant, we narrow down the class of admissible functionals to those that can be expressed as a power of a seminorm. We then show that such functionals can be approximated to arbitrary precision with the help of polyhedral norms. In particular, we identify two dual parameterizations of such systems: (i) a synthesis form with an $\ell_1$-penalty that involves some learnable dictionary; and (ii) an analysis form with an $\ell_\infty$-penalty that involves a trainable regularization operator. After having provided geometric insights and proved that the two forms are universal, we propose an implementation that relies on a specific architecture (tight frame with a weighted $\ell_1$ penalty) that is easy to train. We illustrate its use for denoising and the reconstruction of biomedical images. We find that the proposed framework outperforms the sparsity-based methods of compressed sensing, while it offers essentially the same convergence and robustness guarantees.

arxiv情報

著者 Michael Unser,Stanislas Ducotterd
発行日 2025-04-10 15:12:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML | Universal Architectures for the Learning of Polyhedral Norms and Convex Regularizers はコメントを受け付けていません

Learning convolution operators on compact Abelian groups

要約

コンパクトなアベルグループに関連する畳み込み演算子の学習の問題を考慮します。
正規化ベースのアプローチを研究し、畳み込みカーネルの自然な規則性条件下で対応する学習保証を提供します。
より正確には、畳み込みカーネルは翻訳不変のヒルベルト空間の関数であると仮定し、自然の尾根回帰(RR)推定器を分析します。
RRの既存の結果に基づいて、有限のサンプル境界の観点から推定器の精度を特徴付けます。
興味深いことに、RRの分析において古典的な規則性の仮定は、空間/周波数のローカリゼーションの観点から斬新で自然な解釈を持っています。
理論的な結果は、数値シミュレーションによって示されています。

要約(オリジナル)

We consider the problem of learning convolution operators associated to compact Abelian groups. We study a regularization-based approach and provide corresponding learning guarantees under natural regularity conditions on the convolution kernel. More precisely, we assume the convolution kernel is a function in a translation invariant Hilbert space and analyze a natural ridge regression (RR) estimator. Building on existing results for RR, we characterize the accuracy of the estimator in terms of finite sample bounds. Interestingly, regularity assumptions which are classical in the analysis of RR, have a novel and natural interpretation in terms of space/frequency localization. Theoretical results are illustrated by numerical simulations.

arxiv情報

著者 Emilia Magnani,Ernesto De Vito,Philipp Hennig,Lorenzo Rosasco
発行日 2025-04-10 15:30:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 42B10, 47A52, 62J07, 68T05, cs.LG, F.2.1, stat.ML | Learning convolution operators on compact Abelian groups はコメントを受け付けていません

Robust Hallucination Detection in LLMs via Adaptive Token Selection

要約

大規模な言語モデル(LLMS)の幻覚は、より広範な展開を妨げる重大な安全上の懸念をもたらします。
幻覚検出に関する最近の研究では、LLMSの内部表現には真実性のヒントが含まれており、これは検出器トレーニングのために利用できることが実証されています。
ただし、これらの検出器の性能は、所定のトークンの内部表現に大きく依存しており、さまざまな長さと幻覚エンティティのまばらな分布を持つ自由形式の世代で作業する際にかなり変動します。
これに対処するために、ハミを提案します。ハミは、幻覚を最も示している重要なトークンの適応選択と学習を通じて幻覚の堅牢な検出を可能にする新しいアプローチを提案します。
幻覚検出タスクの革新的な定式化により、シーケンス内のトークンレベルの表現を介した複数のインスタンス(HAMI)学習としての革新的な定式化により、この堅牢性を達成し、それにより、多様な形式の生成シーケンスでのトークン選択と幻覚検出の共同最適化を促進します。
4つの幻覚ベンチマークでの包括的な実験結果は、ハミが既存の最先端のアプローチを大幅に上回ることを示しています。

要約(オリジナル)

Hallucinations in large language models (LLMs) pose significant safety concerns that impede their broader deployment. Recent research in hallucination detection has demonstrated that LLMs’ internal representations contain truthfulness hints, which can be harnessed for detector training. However, the performance of these detectors is heavily dependent on the internal representations of predetermined tokens, fluctuating considerably when working on free-form generations with varying lengths and sparse distributions of hallucinated entities. To address this, we propose HaMI, a novel approach that enables robust detection of hallucinations through adaptive selection and learning of critical tokens that are most indicative of hallucinations. We achieve this robustness by an innovative formulation of the Hallucination detection task as Multiple Instance (HaMI) learning over token-level representations within a sequence, thereby facilitating a joint optimisation of token selection and hallucination detection on generation sequences of diverse forms. Comprehensive experimental results on four hallucination benchmarks show that HaMI significantly outperforms existing state-of-the-art approaches.

arxiv情報

著者 Mengjia Niu,Hamed Haddadi,Guansong Pang
発行日 2025-04-10 15:39:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Robust Hallucination Detection in LLMs via Adaptive Token Selection はコメントを受け付けていません

DiverseFlow: Sample-Efficient Diverse Mode Coverage in Flows

要約

フローベースの生成モデルの多くの実際のアプリケーションは、ターゲット分布の複数のモードをカバーする多様なサンプルセットを望んでいます。
ただし、多様なセットを取得するための主なアプローチは、サンプル効率ではありません。ソース分布から多くのサンプルを独立して取得し、目的のモードカバレッジが達成されるまでフローを通してそれらをマッピングすることを含むためです。
繰り返しのサンプリングの代替として、フローモデルの多様性を改善するためのトレーニングなしのアプローチであるDiverseFlowを紹介します。
私たちの重要なアイデアは、決定的なポイントプロセスを使用して、固定サンプリング予算の下で多様性を促進するサンプル間の結合を誘導することです。
本質的に、Diverseflowは、サンプルが少ない学習フローモデルのより多くのバリエーションを探索できるようになります。
ポリシーな単語を備えたテキストガイド付きの画像生成、大規模な穴の入力などの逆の問題、クラス条件の画像統合など、サンプル効率の高い多様性が望ましいタスクの方法の有効性を実証します。

要約(オリジナル)

Many real-world applications of flow-based generative models desire a diverse set of samples that cover multiple modes of the target distribution. However, the predominant approach for obtaining diverse sets is not sample-efficient, as it involves independently obtaining many samples from the source distribution and mapping them through the flow until the desired mode coverage is achieved. As an alternative to repeated sampling, we introduce DiverseFlow: a training-free approach to improve the diversity of flow models. Our key idea is to employ a determinantal point process to induce a coupling between the samples that drives diversity under a fixed sampling budget. In essence, DiverseFlow allows exploration of more variations in a learned flow model with fewer samples. We demonstrate the efficacy of our method for tasks where sample-efficient diversity is desirable, such as text-guided image generation with polysemous words, inverse problems like large-hole inpainting, and class-conditional image synthesis.

arxiv情報

著者 Mashrur M. Morshed,Vishnu Boddeti
発行日 2025-04-10 16:09:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | DiverseFlow: Sample-Efficient Diverse Mode Coverage in Flows はコメントを受け付けていません

Minmax Trend Filtering: Generalizations of Total Variation Denoising via a Local Minmax/Maxmin Formula

要約

総変動除去(TVD)は、基本的な除去および平滑化方法です。
この記事では、すべてのポイントで単変量TVD推定器を挟む2つの推定器を生成する新しいローカルMinmax/Maxmin式を特定します。
運用上、この式は、ローカル平均の単純な関数のMinmax/MaxminとしてのTVDのローカル定義を提供します。
さらに、このMinmax/Maxmin式は一般化可能であり、他のTVDのような推定器を定義するために使用できることがわかります。
この記事では、さまざまなスケールの間隔にわたってペナルティされた局所的多項式回帰の最適化と最大の最適化の間にあるポイントワイズにあるTVDの高次多項式バージョンを提案および研究します。
これらは、通常のトレンドフィルタリングやノンパラメトリック回帰ツールボックスの他の既存の方法とは異なる新しいノンパラメトリック回帰法のようです。
これらの推定器Minmaxトレンドフィルタリング(MTF)と呼びます。
提案されたTVD/MTF推定器のローカル定義により、トレードオフなどのローカルバイアスの差異の観点から、ポイントワイズの推定エラーが牽引可能になる方法を示します。
TVD/MTFのこのタイプのローカル分析は、TVD/トレンドフィルタリングの既存の分析よりも新しく、間違いなく簡単です。
特に、境界変動と区分的多項式クラスにわたるミニマックスレートの最適性は別として、ポイントワイズ推定誤差境界は、(局所的に)ホルダーの滑らかな信号の局所的な収束率を導き出すこともできます。
これらのローカル料金は、グローバル(MSE)ベースの正当化の代わりに、TVD/MTFのローカル適応性の新しいポイントワイズの説明を提供します。

要約(オリジナル)

Total Variation Denoising (TVD) is a fundamental denoising and smoothing method. In this article, we identify a new local minmax/maxmin formula producing two estimators which sandwich the univariate TVD estimator at every point. Operationally, this formula gives a local definition of TVD as a minmax/maxmin of a simple function of local averages. Moreover we find that this minmax/maxmin formula is generalizeable and can be used to define other TVD like estimators. In this article we propose and study higher order polynomial versions of TVD which are defined pointwise lying between minmax and maxmin optimizations of penalized local polynomial regressions over intervals of different scales. These appear to be new nonparametric regression methods, different from usual Trend Filtering and any other existing method in the nonparametric regression toolbox. We call these estimators Minmax Trend Filtering (MTF). We show how the proposed local definition of TVD/MTF estimator makes it tractable to bound pointwise estimation errors in terms of a local bias variance like trade-off. This type of local analysis of TVD/MTF is new and arguably simpler than existing analyses of TVD/Trend Filtering. In particular, apart from minimax rate optimality over bounded variation and piecewise polynomial classes, our pointwise estimation error bounds also enable us to derive local rates of convergence for (locally) Holder Smooth signals. These local rates offer a new pointwise explanation of local adaptivity of TVD/MTF instead of global (MSE) based justifications.

arxiv情報

著者 Sabyasachi Chatterjee
発行日 2025-04-10 16:25:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.TH | Minmax Trend Filtering: Generalizations of Total Variation Denoising via a Local Minmax/Maxmin Formula はコメントを受け付けていません

Hodge Laplacians and Hodge Diffusion Maps

要約

Hodge Diffusion Mapsは、高次元データセットからトポロジー情報を分析および抽出するように設計された新しい多様な学習アルゴリズムです。
この方法は、微分形態に作用する外部誘導体に近似し、それによりホッジラプラシアンオペレーターの近似を提供します。
ホッジ拡散マップは、ベクター拡散マップを含む既存の非線形寸法削減技術、および拡散マップとラプラシアン固有マップの背後にある理論を拡張します。
私たちのアプローチは、Hodge Laplacianを使用して、それをより低次元のユークリッド空間に投影することにより、データセットの高次トポロジー特徴を捉えています。
実質マニホールドに分布したサンプルポイントに基づいて、外部誘導体の近似誤差を推定するための理論的枠組みを開発します。
数値実験では、提案された方法論をサポートおよび検証します。

要約(オリジナル)

We introduce Hodge Diffusion Maps, a novel manifold learning algorithm designed to analyze and extract topological information from high-dimensional data-sets. This method approximates the exterior derivative acting on differential forms, thereby providing an approximation of the Hodge Laplacian operator. Hodge Diffusion Maps extend existing non-linear dimensionality reduction techniques, including vector diffusion maps, as well as the theories behind diffusion maps and Laplacian Eigenmaps. Our approach captures higher-order topological features of the data-set by projecting it into lower-dimensional Euclidean spaces using the Hodge Laplacian. We develop a theoretical framework to estimate the approximation error of the exterior derivative, based on sample points distributed over a real manifold. Numerical experiments support and validate the proposed methodology.

arxiv情報

著者 Alvaro Almeida Gomez,Jorge Duque Franco
発行日 2025-04-10 16:30:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68P05, 68T10, 68T45, 68W25, cs.LG | Hodge Laplacians and Hodge Diffusion Maps はコメントを受け付けていません

Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining

要約

強化学習(RL)ベースの微調整は、高度な数学的推論とコーディングのためのトレーニング後の言語モデルの重要なステップとなっています。
フロンティアの推論モデルの成功に続いて、最近の研究により、RLの微調整は、小規模なモデルであってもパフォーマンスを一貫して改善することが実証されています。
ただし、これらの改善を促進する根本的なメカニズムは十分に理解されていません。
RL微調整の効果を理解するには、事前のデータ構成、ハイパーパラメーター、およびモデルスケールとの相互作用を解き放つ必要がありますが、そのような問題は、多くの既存のモデルで使用されるトレーニングデータに関する透明性の欠如によって悪化します。
この作業では、完全に開いたデータセットのさまざまな混合物で完全にモデルをゼロからトレーニングすることにより、数学的推論のためのRL微調整の体系的なエンドツーエンドの研究を提示します。
さまざまなスケールのモデル全体で、さまざまなRL微調整アルゴリズム(PPO、GRPO、および専門家の反復)の効果を調査します。
私たちの研究では、RLアルゴリズムが一貫して支配的な出力分布に収束し、前削除データのパターンを増幅することが明らかになりました。
また、同じデータ混合物でトレーニングされた異なるスケールのモデルが異なる出力分布に収束し、モデルの一般化にスケール依存のバイアスがあることを示唆していることがわかります。
さらに、より単純な質問に関するRL後のトレーニングは、より難しい質問のパフォーマンスの向上につながる可能性があることがわかり、特定の推論能力がタスク全体で一般化されていることを示しています。
私たちの調査結果は、制御された設定における小規模なプロキシが、言語モデルの動作を形作る際のRLの役割に関する興味深い洞察を引き出すことができることを示しています。

要約(オリジナル)

Reinforcement learning (RL)-based fine-tuning has become a crucial step in post-training language models for advanced mathematical reasoning and coding. Following the success of frontier reasoning models, recent work has demonstrated that RL fine-tuning consistently improves performance, even in smaller-scale models; however, the underlying mechanisms driving these improvements are not well-understood. Understanding the effects of RL fine-tuning requires disentangling its interaction with pretraining data composition, hyperparameters, and model scale, but such problems are exacerbated by the lack of transparency regarding the training data used in many existing models. In this work, we present a systematic end-to-end study of RL fine-tuning for mathematical reasoning by training models entirely from scratch on different mixtures of fully open datasets. We investigate the effects of various RL fine-tuning algorithms (PPO, GRPO, and Expert Iteration) across models of different scales. Our study reveals that RL algorithms consistently converge towards a dominant output distribution, amplifying patterns in the pretraining data. We also find that models of different scales trained on the same data mixture will converge to distinct output distributions, suggesting that there are scale-dependent biases in model generalization. Moreover, we find that RL post-training on simpler questions can lead to performance gains on harder ones, indicating that certain reasoning capabilities generalize across tasks. Our findings show that small-scale proxies in controlled settings can elicit interesting insights regarding the role of RL in shaping language model behavior.

arxiv情報

著者 Rosie Zhao,Alexandru Meterez,Sham Kakade,Cengiz Pehlevan,Samy Jelassi,Eran Malach
発行日 2025-04-10 17:15:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, I.2.7 | Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining はコメントを受け付けていません