Adaptive Collaborative Correlation Learning-based Semi-Supervised Multi-Label Feature Selection

要約

特定のサンプルが欠落しているラベルが欠落している高次元マルチラベルデータの次元問題の呪いを解決するために、半監視マルチラベル機能の選択が最近開発されました。
多くの努力がなされていますが、ほとんどの既存の方法は事前定義されたグラフアプローチを使用して、サンプルの類似性またはラベル相関をキャプチャします。
このように、元の特徴空間内にノイズと外れ値の存在は、結果のサンプル類似性グラフの信頼性を損なう可能性があります。
また、ラベルが不明なため、ラベルの相関関係を正確に描写することもできません。
また、これらの方法は、選択された機能の識別力のみを考慮し、それらの冗長性を無視します。
この論文では、これらの問題に対処するために、適応的な共同相関学習ベースの半監視マルチラベル機能選択(Access-MFS)メソッドを提案します。
具体的には、拡張された非相関制約を備えた一般化された回帰モデルが導入され、特定の識別的でありながら無関係な特徴を選択し、同時に標識データの予測されたラベルとグラウンドトゥルースラベルの間の一貫性を維持します。
次に、インスタンスの相関とラベル相関が提案された回帰モデルに統合され、サンプルの類似性グラフとラベルの類似性グラフの両方を適応的に学習し、特徴の選択パフォーマンスを相互に強化します。
広範な実験結果は、他の最先端の方法よりも提案されたアクセスMFの優位性を示しています。

要約(オリジナル)

Semi-supervised multi-label feature selection has recently been developed to solve the curse of dimensionality problem in high-dimensional multi-label data with certain samples missing labels. Although many efforts have been made, most existing methods use a predefined graph approach to capture the sample similarity or the label correlation. In this manner, the presence of noise and outliers within the original feature space can undermine the reliability of the resulting sample similarity graph. It also fails to precisely depict the label correlation due to the existence of unknown labels. Besides, these methods only consider the discriminative power of selected features, while neglecting their redundancy. In this paper, we propose an Adaptive Collaborative Correlation lEarning-based Semi-Supervised Multi-label Feature Selection (Access-MFS) method to address these issues. Specifically, a generalized regression model equipped with an extended uncorrelated constraint is introduced to select discriminative yet irrelevant features and maintain consistency between predicted and ground-truth labels in labeled data, simultaneously. Then, the instance correlation and label correlation are integrated into the proposed regression model to adaptively learn both the sample similarity graph and the label similarity graph, which mutually enhance feature selection performance. Extensive experimental results demonstrate the superiority of the proposed Access-MFS over other state-of-the-art methods.

arxiv情報

著者 Yanyong Huang,Li Yang,Dongjie Wang,Ke Li,Xiuwen Yi,Fengmao Lv,Tianrui Li
発行日 2025-03-24 15:56:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Adaptive Collaborative Correlation Learning-based Semi-Supervised Multi-Label Feature Selection はコメントを受け付けていません

Unsupervised Detection of Fraudulent Transactions in E-commerce Using Contrastive Learning

要約

電子商取引の急速な発展に伴い、eコマースプラットフォームはますます多くの詐欺の脅威に直面しています。
これらの不正行為を効果的に特定して防止することは、重要な研究問題になりました。
従来の詐欺検出方法は通常、監視された学習に依存しており、これには大量のラベル付きデータが必要です。
ただし、そのようなデータを取得することはしばしば困難であり、不正行為の継続的な進化により、従来の方法の適応性と有効性がさらに低下します。
この問題に対処するために、この研究では、SIMCLRに基づいた監視されていないeコマース詐欺検出アルゴリズムを提案しています。
このアルゴリズムは、対照的な学習フレームワークを活用して、非標識設定でトランザクションデータの基礎となる表現を学習することにより、詐欺を効果的に検出します。
eBayプラットフォームデータセットの実験結果は、提案されたアルゴリズムが、精度、精度、リコール、F1スコアの観点から、K-Means、Isolation Forest、Autoencodersなどの従来の監視なしの方法を上回ることを示しており、強力な不正検出能力を示しています。
結果は、SIMCLRベースの監視されていない詐欺検出方法が、eコマースプラットフォームのセキュリティで幅広いアプリケーションの見通しを持ち、検出の精度と堅牢性の両方を改善することを確認しています。
将来的には、データセットのスケールと多様性の増加により、モデルのパフォーマンスは引き続き改善され、リアルタイム監視システムと統合されて、eコマースプラットフォームのより効率的なセキュリティを提供することができます。

要約(オリジナル)

With the rapid development of e-commerce, e-commerce platforms are facing an increasing number of fraud threats. Effectively identifying and preventing these fraudulent activities has become a critical research problem. Traditional fraud detection methods typically rely on supervised learning, which requires large amounts of labeled data. However, such data is often difficult to obtain, and the continuous evolution of fraudulent activities further reduces the adaptability and effectiveness of traditional methods. To address this issue, this study proposes an unsupervised e-commerce fraud detection algorithm based on SimCLR. The algorithm leverages the contrastive learning framework to effectively detect fraud by learning the underlying representations of transaction data in an unlabeled setting. Experimental results on the eBay platform dataset show that the proposed algorithm outperforms traditional unsupervised methods such as K-means, Isolation Forest, and Autoencoders in terms of accuracy, precision, recall, and F1 score, demonstrating strong fraud detection capabilities. The results confirm that the SimCLR-based unsupervised fraud detection method has broad application prospects in e-commerce platform security, improving both detection accuracy and robustness. In the future, with the increasing scale and diversity of datasets, the model’s performance will continue to improve, and it could be integrated with real-time monitoring systems to provide more efficient security for e-commerce platforms.

arxiv情報

著者 Xuan Li,Yuting Peng,Xiaoxuan Sun,Yifei Duan,Zhou Fang,Tengda Tang
発行日 2025-03-24 16:14:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Unsupervised Detection of Fraudulent Transactions in E-commerce Using Contrastive Learning はコメントを受け付けていません

What Constitutes a Less Discriminatory Algorithm?

要約

異なる影響ドクトリンは、差別的なデータ駆動型アルゴリズムの決定を標的とするための重要な法的装置を提供します。
最近の作業は、この教義から特定の構成要素を概念化することに焦点を当てています。それほど差別的な代替手段は、現状またはベースラインポリシーの同じビジネスニーズを満たしながら格差を減らす代替ポリシーです。
ただし、アルゴリズム設定でこの構成を操作しようとする試みは、いくつかの厄介な課題と曖昧さに取り組む必要があります。
この論文では、差別の少ないアルゴリズム(LDA)に関する重要な質問を提起して解決しようとします。
LDAを正式に定義する方法、そしてこれは彼らが奉仕するかもしれないさまざまな社会的目標とどのように相互作用しますか?
そして、企業や原告が候補者のLDAを計算的に検索することはどれほど実現可能ですか?
正式なLDA定義は、保有データがない場合に予測モデルを評価および比較しようとすると、基本的な課題に直面していることがわかります。
その結果、LDAの定義は純粋に定量的ではなく、「合理性」の基準に依存しなければならないと主張します。
次に、LDAの積極的な検索を効率的に実施する企業の能力に対する数学的および計算上の制約の両方を特定しますが、これらの制限が正式な意味で「弱い」という証拠を提供します。
LDAを正式に定義することにより、企業と原告の両方が社会的目標と複合する代替モデルを検索できるフレームワークを提案しました。

要約(オリジナル)

Disparate impact doctrine offers an important legal apparatus for targeting discriminatory data-driven algorithmic decisions. A recent body of work has focused on conceptualizing one particular construct from this doctrine: the less discriminatory alternative, an alternative policy that reduces disparities while meeting the same business needs of a status quo or baseline policy. However, attempts to operationalize this construct in the algorithmic setting must grapple with some thorny challenges and ambiguities. In this paper, we attempt to raise and resolve important questions about less discriminatory algorithms (LDAs). How should we formally define LDAs, and how does this interact with different societal goals they might serve? And how feasible is it for firms or plaintiffs to computationally search for candidate LDAs? We find that formal LDA definitions face fundamental challenges when they attempt to evaluate and compare predictive models in the absence of held-out data. As a result, we argue that LDA definitions cannot be purely quantitative, and must rely on standards of ‘reasonableness.’ We then identify both mathematical and computational constraints on firms’ ability to efficiently conduct a proactive search for LDAs, but we provide evidence that these limits are ‘weak’ in a formal sense. By defining LDAs formally, we put forward a framework in which both firms and plaintiffs can search for alternative models that comport with societal goals.

arxiv情報

著者 Benjamin Laufer,Manish Raghavan,Solon Barocas
発行日 2025-03-24 16:25:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.LG, stat.ML | What Constitutes a Less Discriminatory Algorithm? はコメントを受け付けていません

MODIS: Multi-Omics Data Integration for Small and Unpaired Datasets

要約

今日の重要な課題は、このようなマルチモーダルデータがシステム内の基礎となるプロセスのより包括的な概要を提供する可能性があるため、マルチオミクスデータを効率的に処理する機能にあります。
しかし、それには課題が伴います。マルチオミクスのデータはほとんどの場合、ほとんど対応しておらず、部分的にしかラベル付けされていません。さらに、まれな疾患などの状況では少量のデータのみが利用可能です。
これらの特定の設定を説明するための半監視されたアプローチである、小規模および対応のないデータセットのマルチオミクスデータ統合を略するModisを提案します。
Modisは、不均一なデータモダリティの確率的結合を学び、モダリティが整合される共有潜在空間を学習します。
人工データに依存して制御された実験を構築して、モダリティの正確な調整に必要な監督がどれだけ必要か、そして私たちのアプローチが利用可能なデータが少ない新しい条件に対処する方法を探求します。
このコードは、atttps://github.com/villoutreixlab/modisで利用できます。

要約(オリジナル)

A key challenge today lies in the ability to efficiently handle multi-omics data since such multimodal data may provide a more comprehensive overview of the underlying processes in a system. Yet it comes with challenges: multi-omics data are most often unpaired and only partially labeled, moreover only small amounts of data are available in some situation such as rare diseases. We propose MODIS which stands for Multi-Omics Data Integration for Small and unpaired datasets, a semi supervised approach to account for these particular settings. MODIS learns a probabilistic coupling of heterogeneous data modalities and learns a shared latent space where modalities are aligned. We rely on artificial data to build controlled experiments to explore how much supervision is needed for an accurate alignment of modalities, and how our approach enables dealing with new conditions for which few data are available. The code is available athttps://github.com/VILLOUTREIXLab/MODIS.

arxiv情報

著者 Daniel Lepe-Soltero,Thierry Artières,Anaïs Baudot,Paul Villoutreix
発行日 2025-03-24 16:33:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | MODIS: Multi-Omics Data Integration for Small and Unpaired Datasets はコメントを受け付けていません

Optimistic Q-learning for average reward and episodic reinforcement learning

要約

すべてのポリシーで、頻繁な状態$ s_0 $を訪問する時間は予想または一定の確率で$ h $で上限に縛られているという、基礎となるMDPの追加の仮定の下で、平均報酬補強学習における後悔の最小化のための楽観的なQ学習アルゴリズムを提示します。
私たちの設定は、エピソード設定を厳密に一般化し、平均的な報酬設定のモデルフリーアルゴリズムに関するほとんどの以前の文献で作成された境界ヒット時間\ textit {すべての状態}の仮定よりもはるかに制限が少ないです。
$ \ tilde {o}(h^5 s \ sqrt {at})$の後悔の境界を示します。ここで、$ s $ and $ a $は状態と行動の数であり、$ t $は地平線です。
私たちの作品の主要な技術的な斬新さは、$ \ overline {l} $演算子の導入です。
与えられた仮定の下で、$ \ overline {l} $演算子は、割引率が1ドルである平均報酬設定であっても、厳格な収縮(スパン)を持っていることを示します。
当社のアルゴリズム設計では、エピソードQラーニングのアイデアを使用して、このオペレーターを推定および適用します。
したがって、私たちは、エピソードおよび非エピソードの設定における後悔の最小化の統一された見解を提供します。

要約(オリジナル)

We present an optimistic Q-learning algorithm for regret minimization in average reward reinforcement learning under an additional assumption on the underlying MDP that for all policies, the time to visit some frequent state $s_0$ is finite and upper bounded by $H$, either in expectation or with constant probability. Our setting strictly generalizes the episodic setting and is significantly less restrictive than the assumption of bounded hitting time \textit{for all states} made by most previous literature on model-free algorithms in average reward settings. We demonstrate a regret bound of $\tilde{O}(H^5 S\sqrt{AT})$, where $S$ and $A$ are the numbers of states and actions, and $T$ is the horizon. A key technical novelty of our work is the introduction of an $\overline{L}$ operator defined as $\overline{L} v = \frac{1}{H} \sum_{h=1}^H L^h v$ where $L$ denotes the Bellman operator. Under the given assumption, we show that the $\overline{L}$ operator has a strict contraction (in span) even in the average-reward setting where the discount factor is $1$. Our algorithm design uses ideas from episodic Q-learning to estimate and apply this operator iteratively. Thus, we provide a unified view of regret minimization in episodic and non-episodic settings, which may be of independent interest.

arxiv情報

著者 Priyank Agrawal,Shipra Agrawal
発行日 2025-03-24 16:42:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Optimistic Q-learning for average reward and episodic reinforcement learning はコメントを受け付けていません

FFN Fusion: Rethinking Sequential Computation in Large Language Models

要約

並列化の自然な機会を特定して活用することにより、大規模な言語モデルの順次計算を削減するアーキテクチャ最適化手法であるFFN Fusionを紹介します。
私たちの重要な洞察は、フィードフォワードネットワーク(FFN)層のシーケンス、特に特定の注意層の除去後に残っている層は、多くの場合、最小限の精度の影響と並行できることです。
このようなシーケンスを識別して融合し、モデルの動作を維持しながら推論潜時を大幅に削減する並列操作に変換するための原則的な方法論を開発します。
これらの手法をLlama-3.1-405B-Instructに適用すると、Llama-nemotron-ultra-253b-base(ultra-253b-base)を作成します。
49Bから253Bのパラメーターまでのモデルに関する広範な実験を通じて、FFN融合がより大きなスケールでますます効果的になり、量子化や剪定などの既存の最適化技術を補完できることを実証します。
最も興味深いことに、注意とFFN層の両方を含む完全な変圧器ブロックでさえ、神経アーキテクチャの設計の新しい方向を示唆していることがあることがわかります。

要約(オリジナル)

We introduce FFN Fusion, an architectural optimization technique that reduces sequential computation in large language models by identifying and exploiting natural opportunities for parallelization. Our key insight is that sequences of Feed-Forward Network (FFN) layers, particularly those remaining after the removal of specific attention layers, can often be parallelized with minimal accuracy impact. We develop a principled methodology for identifying and fusing such sequences, transforming them into parallel operations that significantly reduce inference latency while preserving model behavior. Applying these techniques to Llama-3.1-405B-Instruct, we create Llama-Nemotron-Ultra-253B-Base (Ultra-253B-Base), an efficient and soon-to-be publicly available model that achieves a 1.71X speedup in inference latency and 35X lower per-token cost while maintaining strong performance across benchmarks. Through extensive experiments on models from 49B to 253B parameters, we demonstrate that FFN Fusion becomes increasingly effective at larger scales and can complement existing optimization techniques like quantization and pruning. Most intriguingly, we find that even full transformer blocks containing both attention and FFN layers can sometimes be parallelized, suggesting new directions for neural architecture design.

arxiv情報

著者 Akhiad Bercovich,Mohammad Dabbah,Omri Puny,Ido Galil,Amnon Geifman,Yonatan Geifman,Izhak Golan,Ehud Karpas,Itay Levy,Zach Moshe,Najeeb Nabwani,Tomer Ronen,Itamar Schen,Elad Segal,Ido Shahaf,Oren Tropp,Ran Zilberstein,Ran El-Yaniv
発行日 2025-03-24 17:20:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | FFN Fusion: Rethinking Sequential Computation in Large Language Models はコメントを受け付けていません

Fine-tuning machine-learned particle-flow reconstruction for new detector geometries in future colliders

要約

We demonstrate transfer learning capabilities in a machine-learned algorithm trained for particle-flow reconstruction in high energy particle colliders.
This paper presents a cross-detector fine-tuning study, where we initially pre-train the model on a large full simulation dataset from one detector design, and subsequently fine-tune the model on a sample with a different collider and detector design.
Specifically, we use the Compact Linear Collider detector (CLICdet) model for the initial training set, and demonstrate successful knowledge transfer to the CLIC-like detector (CLD) proposed for the Future Circular Collider in electron-positron mode (FCC-ee).
We show that with an order of magnitude less samples from the second dataset, we can achieve the same performance as a costly training from scratch, across particle-level and event-level performance metrics, including jet and missing transverse momentum resolution.
Furthermore, we find that the fine-tuned model achieves comparable performance to the traditional rule-based particle-flow approach on event-level metrics after training on 100,000 CLD events, whereas a model trained from scratch requires at least 1 million CLD events to achieve similar reconstruction performance.
私たちの知る限り、これは粒子流の再構築のための最初の全シミュレーションクロスセクター転移学習研究を表しています。
These findings offer valuable insights towards building large foundation models that can be fine-tuned across different detector designs and geometries, helping to accelerate the development cycle for new detectors and opening the door to rapid detector design and optimization using machine learning.

要約(オリジナル)

We demonstrate transfer learning capabilities in a machine-learned algorithm trained for particle-flow reconstruction in high energy particle colliders. This paper presents a cross-detector fine-tuning study, where we initially pre-train the model on a large full simulation dataset from one detector design, and subsequently fine-tune the model on a sample with a different collider and detector design. Specifically, we use the Compact Linear Collider detector (CLICdet) model for the initial training set, and demonstrate successful knowledge transfer to the CLIC-like detector (CLD) proposed for the Future Circular Collider in electron-positron mode (FCC-ee). We show that with an order of magnitude less samples from the second dataset, we can achieve the same performance as a costly training from scratch, across particle-level and event-level performance metrics, including jet and missing transverse momentum resolution. Furthermore, we find that the fine-tuned model achieves comparable performance to the traditional rule-based particle-flow approach on event-level metrics after training on 100,000 CLD events, whereas a model trained from scratch requires at least 1 million CLD events to achieve similar reconstruction performance. To our knowledge, this represents the first full-simulation cross-detector transfer learning study for particle-flow reconstruction. These findings offer valuable insights towards building large foundation models that can be fine-tuned across different detector designs and geometries, helping to accelerate the development cycle for new detectors and opening the door to rapid detector design and optimization using machine learning.

arxiv情報

著者 Farouk Mokhtar,Joosep Pata,Dolores Garcia,Eric Wulff,Mengke Zhang,Michael Kagan,Javier Duarte
発行日 2025-03-24 17:21:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, hep-ex, hep-ph, physics.data-an, physics.ins-det | Fine-tuning machine-learned particle-flow reconstruction for new detector geometries in future colliders はコメントを受け付けていません

Noisy Low Rank Column-wise Sensing

要約

この手紙は、騒々しい低いランクの列ごとのセンシング(LRCS)の問題を解決するためのAltGdminアルゴリズムを研究しています。
サンプルの複雑さの保証は、既存のものを最適な$ \ max(r、\ log(1/\ epsilon))/r $で改善します。ここで、$ r $は未知のマトリックスのランクであり、$ \ epsilon $は最終的な希望の精度です。
この作業の2番目の貢献は、LRCとまったく同じ数学的問題を研究するが、異なる名前で言及するすべての作業からの保証の詳細な比較です。

要約(オリジナル)

This letter studies the AltGDmin algorithm for solving the noisy low rank column-wise sensing (LRCS) problem. Our sample complexity guarantee improves upon the best existing one by a factor $\max(r, \log(1/\epsilon))/r$ where $r$ is the rank of the unknown matrix and $\epsilon$ is the final desired accuracy. A second contribution of this work is a detailed comparison of guarantees from all work that studies the exact same mathematical problem as LRCS, but refers to it by different names.

arxiv情報

著者 Ankit Pratap Singh,Namrata Vaswani
発行日 2025-03-24 17:21:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP | Noisy Low Rank Column-wise Sensing はコメントを受け付けていません

Gradient-Guided Annealing for Domain Generalization

要約

ドメイン一般化(DG)の研究は、目に見えないデータ分布に一般化する能力が最先端のトレーニングアルゴリズムでさえ逃げる要件であるため、最近かなりの牽引力を獲得しています。
このペーパーでは、モデルトレーニングの最初の反復は、I.I.D。
データ。
各ドメインの損失コンポーネントの勾配間の競合により、最適化手順は、ターゲットクラスのドメイン不変機能をキャプチャしない望ましくない局所ミニマに導きます。
トレーニングの初期段階でモデルのパラメーターを繰り返しアニーリングすることにより、モデルの最適化におけるドメインの競合を緩和することを提案し、勾配がドメイン間で整列するポイントを検索することを提案します。
トレーニングセットに存在する各データ分布の勾配が同じ方向に更新されるパラメーター値のセットを発見することにより、提案された勾配誘導アニーリング(GGA)アルゴリズムは、ドメインシフトに対する堅牢性の改善を示す最小値を探すことを奨励します。
GGAの有効性は、広く受け入れられ、挑戦的な画像分類ドメイン一般化ベンチマークで評価されます。このベンチマークでは、その使用単独では、非常に競争力のある、または最先端のパフォーマンスを確立できます。
さらに、以前に提案されていたドメイン一般化アルゴリズムと組み合わせると、有効なマージンによって一貫して有効性を改善することができます。

要約(オリジナル)

Domain Generalization (DG) research has gained considerable traction as of late, since the ability to generalize to unseen data distributions is a requirement that eludes even state-of-the-art training algorithms. In this paper we observe that the initial iterations of model training play a key role in domain generalization effectiveness, since the loss landscape may be significantly different across the training and test distributions, contrary to the case of i.i.d. data. Conflicts between gradients of the loss components of each domain lead the optimization procedure to undesirable local minima that do not capture the domain-invariant features of the target classes. We propose alleviating domain conflicts in model optimization, by iteratively annealing the parameters of a model in the early stages of training and searching for points where gradients align between domains. By discovering a set of parameter values where gradients are updated towards the same direction for each data distribution present in the training set, the proposed Gradient-Guided Annealing (GGA) algorithm encourages models to seek out minima that exhibit improved robustness against domain shifts. The efficacy of GGA is evaluated on five widely accepted and challenging image classification domain generalization benchmarks, where its use alone is able to establish highly competitive or even state-of-the-art performance. Moreover, when combined with previously proposed domain-generalization algorithms it is able to consistently improve their effectiveness by significant margins.

arxiv情報

著者 Aristotelis Ballas,Christos Diou
発行日 2025-03-24 17:49:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Gradient-Guided Annealing for Domain Generalization はコメントを受け付けていません

Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training

要約

強化学習(RL)は、トレーニング後の大規模な言語モデル(LLM)の重要なコンポーネントです。
ただし、トレーニング後に使用される既存のオンポリシーアルゴリズムは、エクスペリエンスリプレイバッファーの使用と本質的に互換性がありません。リプレイバッファーは、分散型オフポリシーアクターによってスケーラルに入力できるように、計算の増加として探索を強化できます。
非常にスケーラブルなLLM RLシステムである非同期バランス(TBA)との軌道バランスを介して、リプレイバッファーのこの利点を効率的に取得することを提案します。
既存のアプローチとは対照的に、TBAは検索時に大量の計算を使用し、常に中央のリプレイバッファーのポリシー外データを常に生成します。
トレーニングノードは、報酬または最新性に基づいてこのバッファーからのデータをサンプリングして、Gflownetsに導入された多様性を求めるRL目標であるTrajectory Balance(TB)を使用してポリシーを更新します。
TBAには3つの重要な利点があります。(1)デカップされたトレーニングと検索、トレーニングの壁1杯の時間を4倍以上高速化します。
(2)大規模なオフポリシーサンプリングによる多様性の改善。
(3)まばらな報酬設定のスケーラブルな検索。
数学的な推論、優先順位、および自動化されたレッドチーミング(多様で代表的なトレーニング後のタスク)について、TBAは強力なベースラインよりも速度とパフォーマンスの改善を生み出します。

要約(オリジナル)

Reinforcement learning (RL) is a critical component of large language model (LLM) post-training. However, existing on-policy algorithms used for post-training are inherently incompatible with the use of experience replay buffers, which can be populated scalably by distributed off-policy actors to enhance exploration as compute increases. We propose efficiently obtaining this benefit of replay buffers via Trajectory Balance with Asynchrony (TBA), a massively scalable LLM RL system. In contrast to existing approaches, TBA uses a larger fraction of compute on search, constantly generating off-policy data for a central replay buffer. A training node simultaneously samples data from this buffer based on reward or recency to update the policy using Trajectory Balance (TB), a diversity-seeking RL objective introduced for GFlowNets. TBA offers three key advantages: (1) decoupled training and search, speeding up training wall-clock time by 4x or more; (2) improved diversity through large-scale off-policy sampling; and (3) scalable search for sparse reward settings. On mathematical reasoning, preference-tuning, and automated red-teaming (diverse and representative post-training tasks), TBA produces speed and performance improvements over strong baselines.

arxiv情報

著者 Brian R. Bartoldson,Siddarth Venkatraman,James Diffenderfer,Moksh Jain,Tal Ben-Nun,Seanie Lee,Minsu Kim,Johan Obando-Ceron,Yoshua Bengio,Bhavya Kailkhura
発行日 2025-03-24 17:51:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training はコメントを受け付けていません