Capacity-Constrained Online Learning with Delays: Scheduling Frameworks and Regret Trade-offs

要約

遅延フィードバックのために同時に追跡できる過去のラウンドを同時に制限する、新しい「容量制約」の下で、忘れられない損失と遅延でオンライン学習を勉強します。
「Clairvoyance」(つまり、遅延期間が各ラウンド前に明らかにされます)および/または「先制」(つまり、以前に選択されたラウンドフィードバックの追跡を停止する能力があります)、私たちは、Minimax dellimed op Crassicalの容量に合わせて、「以前に選択されたラウンドフィードバックの追跡を停止する能力があります)。
暗黙的に無制限の容量を想定します。
私たちのアルゴリズムは、すべての容量レベルで最小限の後悔を達成し、パフォーマンスは最適ではない容量の下で優雅に分解されます。
$ k $アクションと合計遅延$ d $ $ d $ over $ t $ rounds、clairvoyance、想定容量$ c = \ omega(\ log(t))$を想定して、$ \ widetilde {\ theta}(\ sqrt {tk + dk/c + d \ log(k)})
$ \ widetilde {\ theta}(\ sqrt {(d+t)\ log(k)})$ $ for informationフィードバック。
透視性を先制に置き換える場合、既知の最大遅延バウンド$ d _ {\ max} $が必要であり、$ \ smash {\ widetilde {o}(d _ {\ max})} $を後悔に追加します。
固定された遅延$ d $(すなわち、$ d = td $)の場合、ミニマックスの後悔は$ \ theta \ bigl(\ sqrt {tk(1+d/c)+td \ log(k)} \ bigr)$であり、最適な容量は$ \ theta(\ min \ {k/set(k)、d
完全な情報設定であるMinimaxの後悔は、$ \ theta \ bigl(\ sqrt {t(d+1)\ log(k)} \ bigr)$であり、最適な容量は$ \ theta(1)$です。
円依存と固定の遅延のために、パレートで分散したプロキシの遅延とバッチング技術に基づいて、私たちの上限は、新しいスケジューリングポリシーを使用して達成されます。
重要なことに、私たちの仕事は遅れた盗賊、ラベル効率の良い学習、およびオンラインスケジューリングフレームワークを統一し、驚くほど控えめな追跡能力で遅延したフィードバックの下での堅牢なオンライン学習が可能であることを示しています。

要約(オリジナル)

We study online learning with oblivious losses and delays under a novel “capacity constraint” that limits how many past rounds can be tracked simultaneously for delayed feedback. Under “clairvoyance” (i.e., delay durations are revealed upfront each round) and/or “preemptibility” (i.e., we have ability to stop tracking previously chosen round feedback), we establish matching upper and lower bounds (up to logarithmic terms) on achievable regret, characterizing the “optimal capacity” needed to match the minimax rates of classical delayed online learning, which implicitly assume unlimited capacity. Our algorithms achieve minimax-optimal regret across all capacity levels, with performance gracefully degrading under suboptimal capacity. For $K$ actions and total delay $D$ over $T$ rounds, under clairvoyance and assuming capacity $C = \Omega(\log(T))$, we achieve regret $\widetilde{\Theta}(\sqrt{TK + DK/C + D\log(K)})$ for bandits and $\widetilde{\Theta}(\sqrt{(D+T)\log(K)})$ for full-information feedback. When replacing clairvoyance with preemptibility, we require a known maximum delay bound $d_{\max}$, adding $\smash{\widetilde{O}(d_{\max})}$ to the regret. For fixed delays $d$ (i.e., $D=Td$), the minimax regret is $\Theta\bigl(\sqrt{TK(1+d/C)+Td\log(K)}\bigr)$ and the optimal capacity is $\Theta(\min\{K/\log(K),d\}\bigr)$ in the bandit setting, while in the full-information setting, the minimax regret is $\Theta\bigl(\sqrt{T(d+1)\log(K)}\bigr)$ and the optimal capacity is $\Theta(1)$. For round-dependent and fixed delays, our upper bounds are achieved using novel scheduling policies, based on Pareto-distributed proxy delays and batching techniques. Crucially, our work unifies delayed bandits, label-efficient learning, and online scheduling frameworks, demonstrating that robust online learning under delayed feedback is possible with surprisingly modest tracking capacity.

arxiv情報

著者 Alexander Ryabchenko,Idan Attias,Daniel M. Roy
発行日 2025-03-25 17:20:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Capacity-Constrained Online Learning with Delays: Scheduling Frameworks and Regret Trade-offs はコメントを受け付けていません

An Overview of Low-Rank Structures in the Training and Adaptation of Large Models

要約

深い学習の台頭により、信号処理と機械学習のデータ処理と予測に革命をもたらしましたが、トレーニングと展開の実質的な計算需要は、現代の大規模な深いモデルを展開することで、高い計算コストやエネルギー消費を含む重要な課題をもたらします。
最近の研究では、深いネットワークでの広範な現象が明らかになりました。トレーニング中の重量マトリックスと学習した表現における低ランク構造の出現です。
これらの暗黙の低次元パターンは、トレーニングの効率を改善し、大規模なモデルを微調整するための貴重な洞察を提供します。
低ランクの適応(LORA)やトレーニングなど、この現象に触発された実用的な手法は、モデルのパフォーマンスを維持しながら計算コストを大幅に削減できるようにします。
この論文では、深い学習のために低ランク構造を活用し、数学的基盤に光を当てるための低ランク構造の最近の進歩の包括的なレビューを提示します。
数学的には、ディープネットワークの低ランクネスの理解に関する2つの補完的な視点を提示します。(i)勾配の最適化ダイナミクス全体にわたる低ランク構造の出現と(ii)収束でそのような低ランク構造を誘導する暗黙の正則化効果。
実用的な観点から、勾配降下の低ランク学習ダイナミクスを研究することは、微調整の大規模モデルにおけるLORAの有効性を理解するための数学的基盤を提供し、パラメーター効率の高い低ランクトレーニング戦略を鼓舞します。
さらに、暗黙の低ランク正規化効果は、ドロップアウトからマスクされた自己科学学習に至るまで、深いニューラルネットワークでのさまざまなマスクされたトレーニングアプローチの成功を説明するのに役立ちます。

要約(オリジナル)

The rise of deep learning has revolutionized data processing and prediction in signal processing and machine learning, yet the substantial computational demands of training and deploying modern large-scale deep models present significant challenges, including high computational costs and energy consumption. Recent research has uncovered a widespread phenomenon in deep networks: the emergence of low-rank structures in weight matrices and learned representations during training. These implicit low-dimensional patterns provide valuable insights for improving the efficiency of training and fine-tuning large-scale models. Practical techniques inspired by this phenomenon, such as low-rank adaptation (LoRA) and training, enable significant reductions in computational cost while preserving model performance. In this paper, we present a comprehensive review of recent advances in exploiting low-rank structures for deep learning and shed light on their mathematical foundations. Mathematically, we present two complementary perspectives on understanding the low-rankness in deep networks: (i) the emergence of low-rank structures throughout the whole optimization dynamics of gradient and (ii) the implicit regularization effects that induce such low-rank structures at convergence. From a practical standpoint, studying the low-rank learning dynamics of gradient descent offers a mathematical foundation for understanding the effectiveness of LoRA in fine-tuning large-scale models and inspires parameter-efficient low-rank training strategies. Furthermore, the implicit low-rank regularization effect helps explain the success of various masked training approaches in deep neural networks, ranging from dropout to masked self-supervised learning.

arxiv情報

著者 Laura Balzano,Tianjiao Ding,Benjamin D. Haeffele,Soo Min Kwon,Qing Qu,Peng Wang,Zhangyang Wang,Can Yaras
発行日 2025-03-25 17:26:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP, math.OC, stat.CO, stat.ML | An Overview of Low-Rank Structures in the Training and Adaptation of Large Models はコメントを受け付けていません

Mambular: A Sequential Model for Tabular Deep Learning

要約

表形式データの分析は、伝統的に、カテゴリと数値の混合特徴を備えた習熟度で知られている勾配強化された決定ツリー(GBDT)によって支配されてきました。
しかし、最近の深い学習革新はこの支配に挑戦しています。
このホワイトペーパーでは、表形式データの自己回帰状態空間モデルの使用を調査し、そのパフォーマンスを確立されたベンチマークモデルと比較します。
さらに、さまざまなプーリング戦略、特徴相互作用メカニズム、双方向処理技術を含むこれらのモデルのさまざまな適応を検討して、表形式データの有効性を理解します。
私たちの調査結果は、特徴をシーケンスとして解釈し、それらを処理し、構造化された状態空間層を介したそれらの相互作用がパフォーマンスの大幅な改善につながる可能性があることを示しています。
この研究では、表形式のデータ分析における自己回帰モデルの汎用性を強調し、この伝統的に挑戦的な分野で深い学習能力を大幅に高めることができる有望な代替手段として配置します。
ソースコードは、https://github.com/basf/mamba-tabularで入手できます。

要約(オリジナル)

The analysis of tabular data has traditionally been dominated by gradient-boosted decision trees (GBDTs), known for their proficiency with mixed categorical and numerical features. However, recent deep learning innovations are challenging this dominance. This paper investigates the use of autoregressive state-space models for tabular data and compares their performance against established benchmark models. Additionally, we explore various adaptations of these models, including different pooling strategies, feature interaction mechanisms, and bi-directional processing techniques to understand their effectiveness for tabular data. Our findings indicate that interpreting features as a sequence and processing them and their interactions through structured state-space layers can lead to significant performance improvement. This research underscores the versatility of autoregressive models in tabular data analysis, positioning them as a promising alternative that could substantially enhance deep learning capabilities in this traditionally challenging area. The source code is available at https://github.com/basf/mamba-tabular.

arxiv情報

著者 Anton Frederik Thielmann,Manish Kumar,Christoph Weisser,Arik Reuter,Benjamin Säfken,Soheila Samiee
発行日 2025-03-25 17:27:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Mambular: A Sequential Model for Tabular Deep Learning はコメントを受け付けていません

Identification of Average Treatment Effects in Nonparametric Panel Models

要約

このホワイトペーパーでは、パネルデータ設定における平均治療効果の特定を研究します。
新しいノンパラメトリック因子モデルを導入し、平均的な治療効果の識別を証明します。
識別証明は、一貫した推定器の導入に基づいています。
証明の根底にあるのは、各ユニットと期間の治療がない場合、予想される結果に一貫した推定量があるという結果です。
この結果は、たとえば、非常に研究されている性別賃金格差などの結果のグループレベルの違いの分解の問題など、より広く適用できます。

要約(オリジナル)

This paper studies identification of average treatment effects in a panel data setting. It introduces a novel nonparametric factor model and proves identification of average treatment effects. The identification proof is based on the introduction of a consistent estimator. Underlying the proof is a result that there is a consistent estimator for the expected outcome in the absence of the treatment for each unit and time period; this result can be applied more broadly, for example in problems of decompositions of group-level differences in outcomes, such as the much-studied gender wage gap.

arxiv情報

著者 Susan Athey,Guido Imbens
発行日 2025-03-25 17:36:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, econ.EM, stat.ME | Identification of Average Treatment Effects in Nonparametric Panel Models はコメントを受け付けていません

Extensions of regret-minimization algorithm for optimal design

要約

最適な実験設計の問題を解決するために、〜\ cite {design}によって導入された後悔の最小化フレームワークの拡張とアプリケーションを調査します。
具体的には、このフレームワークにエントロピーリガイザーを組み込み、新しいサンプル選択目標と、$(1+ \ epsilon)$を保証する証明可能なサンプルの複雑さにつながります。
さらに、この方法を拡張して、正規化された最適な設計設定を処理します。
アプリケーションとして、アルゴリズムを使用して、ラベル情報に依存せずに画像分類データセットから代表的なサンプルの小さなセットを選択します。
選択したサンプルの品質を評価するために、ロジスティック回帰モデルをトレーニングし、いくつかのベースラインサンプリング戦略とパフォーマンスを比較します。
MNIST、CIFAR-10、およびImagenetの50クラスのサブセットに関する実験結果は、ほとんどの場合、私たちのアプローチが競合する方法よりも一貫して優れていることを示しています。

要約(オリジナル)

We explore extensions and applications of the regret minimization framework introduced by~\cite{design} for solving optimal experimental design problems. Specifically, we incorporate the entropy regularizer into this framework, leading to a novel sample selection objective and a provable sample complexity bound that guarantees a $(1+\epsilon)$-near optimal solution. We further extend the method to handle regularized optimal design settings. As an application, we use our algorithm to select a small set of representative samples from image classification datasets without relying on label information. To evaluate the quality of the selected samples, we train a logistic regression model and compare performance against several baseline sampling strategies. Experimental results on MNIST, CIFAR-10, and a 50-class subset of ImageNet show that our approach consistently outperforms competing methods in most cases.

arxiv情報

著者 Youguang Chen,George Biros
発行日 2025-03-25 17:37:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62J12, 62L05, 68T05, 68W27, 68W40, cs.LG, stat.ML | Extensions of regret-minimization algorithm for optimal design はコメントを受け付けていません

RCC-PFL: Robust Client Clustering under Noisy Labels in Personalized Federated Learning

要約

ユーザーがさまざまな個人モデルを学ぶことを目指しているパーソナライズされたフェデレーション学習(PFL)設定におけるクラスターID推定の問題に対処します。
このような設定での効果的な学習のバックボーンは、目標が類似しているグループにユーザーをクラスター化することです。
文献の典型的なアプローチは、さまざまな提案された個人モデルに関するユーザーのデータをトレーニングし、ユーザーの損失関数の最低値を達成するモデルに基づいてグループに割り当てることでこれを達成することです。
このプロセスは、グループアイデンティティが収束するまで繰り返し行われます。
このような設定での重要な課題は、ユーザーが騒々しいラベル付きデータを持っている場合に発生し、それが自分の損失関数の誤解を招く値を生み出し、したがって効果のないクラスタリングにつながる可能性があります。
この課題を克服するために、3つの主な利点を備えたRCC-PFLを作成したラベルに依存しないデータ類似性ベースのクラスタリングアルゴリズムを提案します。クラスターID推定手順は、トレーニングラベルから独立しています。
これは、トレーニング前に実行されるワンショットクラスタリングアルゴリズムです。
また、反復ベースのクラスタリング方法と比較して、通信ラウンドが少なく、計算が少なくなります。
さまざまなモデルとデータセットを使用して提案されたアルゴリズムを検証し、平均精度と分散削減の観点から複数のベースラインを上回ることを示します。

要約(オリジナル)

We address the problem of cluster identity estimation in a personalized federated learning (PFL) setting in which users aim to learn different personal models. The backbone of effective learning in such a setting is to cluster users into groups whose objectives are similar. A typical approach in the literature is to achieve this by training users’ data on different proposed personal models and assign them to groups based on which model achieves the lowest value of the users’ loss functions. This process is to be done iteratively until group identities converge. A key challenge in such a setting arises when users have noisy labeled data, which may produce misleading values of their loss functions, and hence lead to ineffective clustering. To overcome this challenge, we propose a label-agnostic data similarity-based clustering algorithm, coined RCC-PFL, with three main advantages: the cluster identity estimation procedure is independent from the training labels; it is a one-shot clustering algorithm performed prior to the training; and it requires fewer communication rounds and less computation compared to iterative-based clustering methods. We validate our proposed algorithm using various models and datasets and show that it outperforms multiple baselines in terms of average accuracy and variance reduction.

arxiv情報

著者 Abdulmoneam Ali,Ahmed Arafa
発行日 2025-03-25 17:50:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.IT, cs.LG, cs.NI, eess.SP, math.IT | RCC-PFL: Robust Client Clustering under Noisy Labels in Personalized Federated Learning はコメントを受け付けていません

FLEX: A Benchmark for Evaluating Robustness of Fairness in Large Language Models

要約

大規模な言語モデル(LLMS)の最近の進歩により、ユーザーとモデル間の相互作用が大幅に強化されています。
これらの進歩は、社会的バイアスの現れによる厳格な安全評価の必要性を同時に強調しており、それが有害な社会的影響につながる可能性があります。
これらの懸念にもかかわらず、既存のベンチマークは、LLMSの本質的な弱点を見落とす可能性があり、単純な敵対的な指示でさえ偏った応答を生成する可能性があります。
このクリティカルギャップに対処するために、LLMがバイアスを誘導するために構築されたプロンプトにさらされた場合でも公平性を維持できるかどうかをテストするために設計された、極端なシナリオ(FLEX)の下で、LLMの新しいベンチマーク、LLMのベンチマークを導入します。
LLMSの堅牢性を徹底的に評価するために、潜在的なバイアスを公平性評価に増幅するプロンプトを統合します。
フレックスと既存のベンチマークの比較実験は、従来の評価がモデルに固有のリスクを過小評価する可能性があることを示しています。
これは、安全性と公平性を保証するために、より厳しいLLM評価ベンチマークの必要性を強調しています。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have significantly enhanced interactions between users and models. These advancements concurrently underscore the need for rigorous safety evaluations due to the manifestation of social biases, which can lead to harmful societal impacts. Despite these concerns, existing benchmarks may overlook the intrinsic weaknesses of LLMs, which can generate biased responses even with simple adversarial instructions. To address this critical gap, we introduce a new benchmark, Fairness Benchmark in LLM under Extreme Scenarios (FLEX), designed to test whether LLMs can sustain fairness even when exposed to prompts constructed to induce bias. To thoroughly evaluate the robustness of LLMs, we integrate prompts that amplify potential biases into the fairness assessment. Comparative experiments between FLEX and existing benchmarks demonstrate that traditional evaluations may underestimate the inherent risks in models. This highlights the need for more stringent LLM evaluation benchmarks to guarantee safety and fairness.

arxiv情報

著者 Dahyun Jung,Seungyoon Lee,Hyeonseok Moon,Chanjun Park,Heuiseok Lim
発行日 2025-03-25 10:48:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | FLEX: A Benchmark for Evaluating Robustness of Fairness in Large Language Models はコメントを受け付けていません

The HalluRAG Dataset: Detecting Closed-Domain Hallucinations in RAG Applications Using an LLM’s Internal States

要約

大規模な言語モデル(LLM)の幻覚を検出することは、信頼性と信頼性を高めるために重要です。
ほとんどの研究は、トレーニング中に見られる情報からの逸脱として幻覚に焦点を当てています。
しかし、LLMのパラメトリック知識の不透明な性質は、生成されたテキストが根拠のないように見える理由の理解を複雑にします。LLMは、大規模でしばしばアクセスできないデータセットから必要な知識を取り上げていないか、さらなるトレーニング中に情報が変更または矛盾している可能性があります。
私たちの焦点は、トレーニングで使用されていない情報を含む幻覚にあります。これは、最新性を使用して、カットオフ日の後に情報が生まれたことを確認することで決定します。
この研究では、さまざまなLLMの異なる内部状態を使用して、文レベルでそれらを検出することにより、これらの幻覚を調査します。
これらの幻覚について分類子をトレーニングするように設計されたデータセットであるHalluragを提示します。
モデルと量子化に応じて、HalluragでトレーニングされたMLPは、最大75%のテスト精度で幻覚を検出し、Mistral-7B-Instruct-V0.1が最高のテスト精度を達成しました。
我々の結果は、IAVがCEVと同じくらい効果的に幻覚を検出し、これらのカテゴリの精度が向上した別々の分類子として、答えられない未回答のプロンプトが異なるエンコードが異なることを明らかにすることを示しています。
しかし、Halluragはいくつかの限られた一般化可能性を示し、幻覚に関するデータセットの多様性をより多く提唱しました。

要約(オリジナル)

Detecting hallucinations in large language models (LLMs) is critical for enhancing their reliability and trustworthiness. Most research focuses on hallucinations as deviations from information seen during training. However, the opaque nature of an LLM’s parametric knowledge complicates the understanding of why generated texts appear ungrounded: The LLM might not have picked up the necessary knowledge from large and often inaccessible datasets, or the information might have been changed or contradicted during further training. Our focus is on hallucinations involving information not used in training, which we determine by using recency to ensure the information emerged after a cut-off date. This study investigates these hallucinations by detecting them at sentence level using different internal states of various LLMs. We present HalluRAG, a dataset designed to train classifiers on these hallucinations. Depending on the model and quantization, MLPs trained on HalluRAG detect hallucinations with test accuracies ranging up to 75 %, with Mistral-7B-Instruct-v0.1 achieving the highest test accuracies. Our results show that IAVs detect hallucinations as effectively as CEVs and reveal that answerable and unanswerable prompts are encoded differently as separate classifiers for these categories improved accuracy. However, HalluRAG showed some limited generalizability, advocating for more diversity in datasets on hallucinations.

arxiv情報

著者 Fabian Ridder,Malte Schilling
発行日 2025-03-25 10:50:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | The HalluRAG Dataset: Detecting Closed-Domain Hallucinations in RAG Applications Using an LLM’s Internal States はコメントを受け付けていません

PropNet: a White-Box and Human-Like Network for Sentence Representation

要約

トランスベースの埋め込み方法は、近年、文の表現の分野を支配しています。
セマンティックテキストの類似性(STS)タスクなど、NLPミッションで顕著なパフォーマンスを達成していますが、ブラックボックスの性質や大型ダタ駆動型のトレーニングスタイルは、バイアス、信頼、安全性に関連する問題を含む懸念を引き起こしました。
埋め込みモデルの解釈可能性を改善するために多くの努力がなされてきましたが、これらの問題は根本的に解決されていません。
固有の解釈可能性を実現するために、純粋に白い箱と人間のような文の表現ネットワークであるPropnetを提案します。
認知科学の調査結果に触発されたPropnetは、文に含まれる命題に基づいて階層ネットワークを構築します。
実験では、PropnetがSTSタスクに最先端の(SOTA)埋め込みモデルと比較して有意なギャップがあることが示されていますが、ケーススタディは改善の余地がかなりあることを明らかにしています。
さらに、Propnetを使用すると、STSベンチマークの根底にある人間の認知プロセスを分析および理解することができます。

要約(オリジナル)

Transformer-based embedding methods have dominated the field of sentence representation in recent years. Although they have achieved remarkable performance on NLP missions, such as semantic textual similarity (STS) tasks, their black-box nature and large-data-driven training style have raised concerns, including issues related to bias, trust, and safety. Many efforts have been made to improve the interpretability of embedding models, but these problems have not been fundamentally resolved. To achieve inherent interpretability, we propose a purely white-box and human-like sentence representation network, PropNet. Inspired by findings from cognitive science, PropNet constructs a hierarchical network based on the propositions contained in a sentence. While experiments indicate that PropNet has a significant gap compared to state-of-the-art (SOTA) embedding models in STS tasks, case studies reveal substantial room for improvement. Additionally, PropNet enables us to analyze and understand the human cognitive processes underlying STS benchmarks.

arxiv情報

著者 Fei Yang
発行日 2025-03-25 11:04:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | PropNet: a White-Box and Human-Like Network for Sentence Representation はコメントを受け付けていません

Scaling Laws of Synthetic Data for Language Models

要約

大規模な言語モデル(LLM)は、主にトレーニング前に使用される高品質のWebデータによって駆動される多様なタスク全体で強力なパフォーマンスを実現します。
ただし、最近の研究では、このデータソースが急速に枯渇していることが示されています。
合成データは有望な代替手段として浮上していますが、合成データセットが生のトレーニング前データに匹敵する予測可能なスケーラビリティを示すかどうかは不明のままです。
この作業では、トレーニング前のコーパスを多様で高品質の合成データセットに変換するスケーラブルなフレームワークであるSynthllMを導入することにより、合成データのスケーリング法則を体系的に調査します。
私たちのアプローチは、グラフアルゴリズムを使用して複数のドキュメントにわたって高レベルの概念を自動的に抽出および再結合することにより、これを達成します。
SynthllMに関する広範な数学実験からの主要な調査結果には、次のものが含まれます。(1)Synthllmは、さまざまなモデルサイズにわたって\ emphing {rectified Scaling Law}を確実に順守する合成データを生成します。
(2)パフォーマンスの改善300Bトークン近くのプラトー。
(3)より少ないトレーニングトークンで、より大きなモデルが最適なパフォーマンスにアプローチします。
たとえば、8Bモデルは1Tトークンでピークに達しますが、3Bモデルには4Tが必要です。
さらに、既存の合成データ生成および増強方法との比較により、Synthllmが優れたパフォーマンスとスケーラビリティを達成することが示されています。
私たちの調査結果は、合成データを強調して、オーガニックのプリトレーニングコーパスに代わるスケーラブルで信頼できる代替手段として、モデルパフォーマンスの継続的な改善への実行可能なパスを提供します。

要約(オリジナル)

Large language models (LLMs) achieve strong performance across diverse tasks, largely driven by high-quality web data used in pre-training. However, recent studies indicate this data source is rapidly depleting. Synthetic data emerges as a promising alternative, but it remains unclear whether synthetic datasets exhibit predictable scalability comparable to raw pre-training data. In this work, we systematically investigate the scaling laws of synthetic data by introducing SynthLLM, a scalable framework that transforms pre-training corpora into diverse, high-quality synthetic datasets. Our approach achieves this by automatically extracting and recombining high-level concepts across multiple documents using a graph algorithm. Key findings from our extensive mathematical experiments on SynthLLM include: (1) SynthLLM generates synthetic data that reliably adheres to the \emph{rectified scaling law} across various model sizes; (2) Performance improvements plateau near 300B tokens; and (3) Larger models approach optimal performance with fewer training tokens. For instance, an 8B model peaks at 1T tokens, while a 3B model requires 4T. Moreover, comparisons with existing synthetic data generation and augmentation methods demonstrate that SynthLLM achieves superior performance and scalability. Our findings highlight synthetic data as a scalable and reliable alternative to organic pre-training corpora, offering a viable path toward continued improvement in model performance.

arxiv情報

著者 Zeyu Qin,Qingxiu Dong,Xingxing Zhang,Li Dong,Xiaolong Huang,Ziyi Yang,Mahmoud Khademi,Dongdong Zhang,Hany Hassan Awadalla,Yi R. Fung,Weizhu Chen,Minhao Cheng,Furu Wei
発行日 2025-03-25 11:07:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Scaling Laws of Synthetic Data for Language Models はコメントを受け付けていません