Crowd-SFT: Crowdsourcing for LLM Alignment

要約

大規模な言語モデル(LLMS)は、人間のフィードバック(RLHF)からの監視付き微調整(SFT)と強化学習にますます依存して、モデルの応答を人間の好みに合わせています。
RLHFは別の報酬モデルを使用して強化学習アプローチを採用していますが、SFTは監視された学習のために人間がキュレーションしたデータセットを使用します。
どちらのアプローチも伝統的に、アノテーターの小さな吟味されたグループに依存しており、コストがかかり、バイアスが発生しやすく、スケーラビリティが制限されています。
大規模なアノテータートレーニングなしでSFTのより広範なフィードバックコレクションを可能にすることにより、これらの制限に対処する、クラウドソーシングされた微調整フレームワークを提案します。
当社のフレームワークは、Shapley値と相関するポイントベースの報酬システムを介してインセンティブの公平性を促進し、モデルの収束を繰り返し介してモデルの収束をガイドします。
マルチモデル選択フレームワークは、シングルモデル選択にわたって目標距離が最大55%減少することを示しており、その後の実験を可能にし、ポイントベースの報酬メカニズムのShapley値との密接な整合(個々の貢献を帰属させるための確立された方法)を検証し、公正でスケーラブルな参加をサポートします。

要約(オリジナル)

Large Language Models (LLMs) increasingly rely on Supervised Fine-Tuning (SFT) and Reinforcement Learning from Human Feedback (RLHF) to align model responses with human preferences. While RLHF employs a reinforcement learning approach with a separate reward model, SFT uses human-curated datasets for supervised learning. Both approaches traditionally depend on small, vetted groups of annotators, making them costly, prone to bias, and limited in scalability. We propose an open, crowd-sourced fine-tuning framework that addresses these limitations by enabling broader feedback collection for SFT without extensive annotator training. Our framework promotes incentive fairness via a point-based reward system correlated with Shapley values and guides model convergence through iterative model updates. Our multi-model selection framework demonstrates up to a 55% reduction in target distance over single-model selection, enabling subsequent experiments that validate our point-based reward mechanism’s close alignment with Shapley values (a well-established method for attributing individual contributions) thereby supporting fair and scalable participation.

arxiv情報

著者 Alex Sotiropoulos,Sulyab Thottungal Valapu,Linus Lei,Jared Coleman,Bhaskar Krishnamachari
発行日 2025-06-04 15:26:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG | Crowd-SFT: Crowdsourcing for LLM Alignment はコメントを受け付けていません

Multimodal Biomarkers for Schizophrenia: Towards Individual Symptom Severity Estimation

要約

深い学習を使用した統合失調症評価に関する研究は、通常、障害の有無を検出する分類タスクとしてそれを扱い、状態を過度に複製し、その臨床的適用性を低減します。
この伝統的なアプローチは、統合失調症の複雑さを見落とし、医療環境での実際的な価値を制限しています。
この研究は、音声、ビデオ、テキストの入力を統合するマルチモーダルアプローチを使用して、個々の症状の重症度推定に焦点を移します。
精度と堅牢性を向上させるために、各モダリティとマルチモーダルフレームワークの単峰性モデルを開発します。
より詳細な症状プロファイルをキャプチャすることにより、このアプローチは診断精度を高め、パーソナライズされた治療をサポートし、メンタルヘルス評価のためのスケーラブルで客観的なツールを提供するのに役立ちます。

要約(オリジナル)

Studies on schizophrenia assessments using deep learning typically treat it as a classification task to detect the presence or absence of the disorder, oversimplifying the condition and reducing its clinical applicability. This traditional approach overlooks the complexity of schizophrenia, limiting its practical value in healthcare settings. This study shifts the focus to individual symptom severity estimation using a multimodal approach that integrates speech, video, and text inputs. We develop unimodal models for each modality and a multimodal framework to improve accuracy and robustness. By capturing a more detailed symptom profile, this approach can help in enhancing diagnostic precision and support personalized treatment, offering a scalable and objective tool for mental health assessment.

arxiv情報

著者 Gowtham Premananth,Philip Resnik,Sonia Bansal,Deanna L. Kelly,Carol Espy-Wilson
発行日 2025-06-04 15:35:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.AS, eess.IV, eess.SP | Multimodal Biomarkers for Schizophrenia: Towards Individual Symptom Severity Estimation はコメントを受け付けていません

A theoretical framework for overfitting in energy-based modeling

要約

相互作用ネットワークを特定することを目的とした逆問題のペアワイズエネルギーベースのモデルのトレーニングに対する限られたデータの影響を調査します。
ガウスモデルをテストベッドとして利用して、カップリングマトリックスの固有ベシス全体のトレーニング軌跡を分析し、固有モードの独立した進化を活用し、学習タイムスケールが経験的共和性マトリックスのスペクトル分解に結び付けられていることを明らかにします。
これらのタイムスケールとトレーニングの初期条件との間の相互作用から、早期停止に最適なポイントが生じることがわかります。
さらに、有限データ補正は、漸近ランダムマトリックス理論計算を通じて正確にモデル化され、エネルギーベースのモデルコンテキストで一般化された交差検証の対応物を提供できることを示します。
分析フレームワークは、最小限のバリエーションを備えたバイナリ変数最大エントロピーペアワイズモデルに拡張されます。
これらの調査結果は、経験的収縮補正を通じて離散変数モデルの過剰適合を制御する戦略を提供し、エネルギーベースの生成モデルにおける過剰適合の管理を改善します。
最後に、スコアマッチングアルゴリズムの下でスコア関数の神経接線カーネルダイナミクスを導出することにより、任意のエネルギーベースのモデルへの一般化を提案します。

要約(オリジナル)

We investigate the impact of limited data on training pairwise energy-based models for inverse problems aimed at identifying interaction networks. Utilizing the Gaussian model as testbed, we dissect training trajectories across the eigenbasis of the coupling matrix, exploiting the independent evolution of eigenmodes and revealing that the learning timescales are tied to the spectral decomposition of the empirical covariance matrix. We see that optimal points for early stopping arise from the interplay between these timescales and the initial conditions of training. Moreover, we show that finite data corrections can be accurately modeled through asymptotic random matrix theory calculations and provide the counterpart of generalized cross-validation in the energy based model context. Our analytical framework extends to binary-variable maximum-entropy pairwise models with minimal variations. These findings offer strategies to control overfitting in discrete-variable models through empirical shrinkage corrections, improving the management of overfitting in energy-based generative models. Finally, we propose a generalization to arbitrary energy-based models by deriving the neural tangent kernel dynamics of the score function under the score-matching algorithm.

arxiv情報

著者 Giovanni Catania,Aurélien Decelle,Cyril Furtlehner,Beatriz Seoane
発行日 2025-06-04 15:50:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cond-mat.stat-mech, cs.LG | A theoretical framework for overfitting in energy-based modeling はコメントを受け付けていません

Optimistic critics can empower small actors

要約

俳優の批判的な方法は、深い強化学習における最近の進歩の多くの中心となっています。
最も一般的なアプローチは、対称アーキテクチャを使用することです。これにより、俳優と批評家の両方が同じネットワークトポロジとパラメーターの数を持っています。
しかし、最近の作品は、特に小規模な俳優の使用に関する非対称セットアップの利点について主張しています。
幅広い経験的調査と分析を実行して、これの意味をよりよく理解し、一般的に、より小さな俳優がパフォーマンスの劣化と過剰な批評家につながることを発見しました。
私たちの分析は、価値の過小評価のために、この行動の主な原因の1つとして、価値の過小評価のために不十分なデータ収集を示唆しており、批評家がこの病理を緩和する上で果たすことができる重要な役割をさらに強調しています。
観測された値の過小評価を緩和するための手法を探求します。これにより、非対称の俳優批判的な方法でのさらなる研究が可能になります。

要約(オリジナル)

Actor-critic methods have been central to many of the recent advances in deep reinforcement learning. The most common approach is to use symmetric architectures, whereby both actor and critic have the same network topology and number of parameters. However, recent works have argued for the advantages of asymmetric setups, specifically with the use of smaller actors. We perform broad empirical investigations and analyses to better understand the implications of this and find that, in general, smaller actors result in performance degradation and overfit critics. Our analyses suggest poor data collection, due to value underestimation, as one of the main causes for this behavior, and further highlight the crucial role the critic can play in alleviating this pathology. We explore techniques to mitigate the observed value underestimation, which enables further research in asymmetric actor-critic methods.

arxiv情報

著者 Olya Mastikhina,Dhruv Sreenivas,Pablo Samuel Castro
発行日 2025-06-04 15:56:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Optimistic critics can empower small actors はコメントを受け付けていません

ZipNN: Lossless Compression for AI Models

要約

モデルサイズの成長と展開のスケールにより、それらのサイズはインフラストラクチャに負担をかけ、これらに対応するためにより多くのネットワークとより多くのストレージが必要です。
モデルの重みの一部を削除する広大なモデル圧縮文献がありますが、より速い推論のために、より伝統的なタイプの圧縮を調査します。これは、モデルをコンパクトな形式で表し、元のフォームとサイズ、つまりロスレス圧縮を返す減圧アルゴリズムと結合します。
Zipnnに、ニューラルネットワークに合わせたロスレス圧縮を提示します。
やや驚くべきことに、特定のロスレス圧縮により、人気のあるモデルで大幅なネットワークとストレージの削減が得られ、多くの場合33%を節約し、モデルサイズの50%以上を削減することが多いことを示しています。
モデル圧縮率の原因を調査し、圧縮の有効性をさらに高めるモデルに合わせた特殊な圧縮バリアントを導入します。
人気モデル(Llama 3など)では、Zipnnはバニラ圧縮よりも17%を超えるスペースの節約を示し、圧縮と減圧速度を62%改善します。
これらの方法は、顔を抱き締めるような大きなモデルハブからダウンロードされたネットワークトラフィックの1か月あたりの例外を節約できると推定しています。

要約(オリジナル)

With the growth of model sizes and the scale of their deployment, their sheer size burdens the infrastructure requiring more network and more storage to accommodate these. While there is a vast model compression literature deleting parts of the model weights for faster inference, we investigate a more traditional type of compression – one that represents the model in a compact form and is coupled with a decompression algorithm that returns it to its original form and size – namely lossless compression. We present ZipNN a lossless compression tailored to neural networks. Somewhat surprisingly, we show that specific lossless compression can gain significant network and storage reduction on popular models, often saving 33% and at times reducing over 50% of the model size. We investigate the source of model compressibility and introduce specialized compression variants tailored for models that further increase the effectiveness of compression. On popular models (e.g. Llama 3) ZipNN shows space savings that are over 17% better than vanilla compression while also improving compression and decompression speeds by 62%. We estimate that these methods could save over an ExaByte per month of network traffic downloaded from a large model hub like Hugging Face.

arxiv情報

著者 Moshik Hershcovitch,Andrew Wood,Leshem Choshen,Guy Girmonsky,Roy Leibovitz,Ilias Ennmouri,Michal Malka,Peter Chin,Swaminathan Sundararaman,Danny Harnik
発行日 2025-06-04 15:59:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT | ZipNN: Lossless Compression for AI Models はコメントを受け付けていません

The Gaussian Mixing Mechanism: Renyi Differential Privacy via Gaussian Sketches

要約

ランダムガウスマトリックスを使用してデータを事前に統合することで構成されるガウススケッチは、データサイエンスと機械学習の複数の問題に広く使用されている手法であり、アプリケーションは計算効率の良い最適化、コード化されたコンピューティング、およびフェデレートラーニングにまたがっています。
この操作は、その固有のランダム性のために、プライバシー保証の差も提供します。
この作業では、Renyiの差動プライバシー(RDP)のレンズを通じてこの操作を再検討し、以前の結果よりも大幅に狭い境界をもたらす洗練されたプライバシー分析を提供します。
次に、この改善された分析が、さまざまな線形回帰設定のパフォーマンスの向上につながり、理論的ユーティリティ保証を確立する方法を示します。
経験的には、私たちの方法は複数のデータセット間でパフォーマンスを改善し、いくつかのケースではランタイムを短縮します。

要約(オリジナル)

Gaussian sketching, which consists of pre-multiplying the data with a random Gaussian matrix, is a widely used technique for multiple problems in data science and machine learning, with applications spanning computationally efficient optimization, coded computing, and federated learning. This operation also provides differential privacy guarantees due to its inherent randomness. In this work, we revisit this operation through the lens of Renyi Differential Privacy (RDP), providing a refined privacy analysis that yields significantly tighter bounds than prior results. We then demonstrate how this improved analysis leads to performance improvement in different linear regression settings, establishing theoretical utility guarantees. Empirically, our methods improve performance across multiple datasets and, in several cases, reduce runtime.

arxiv情報

著者 Omri Lev,Vishwak Srinivasan,Moshe Shenfeld,Katrina Ligett,Ayush Sekhari,Ashia C. Wilson
発行日 2025-06-04 16:02:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | The Gaussian Mixing Mechanism: Renyi Differential Privacy via Gaussian Sketches はコメントを受け付けていません

X-Factor: Quality Is a Dataset-Intrinsic Property

要約

機械学習分類器を最適化するためのユニバーサルクエストでは、モデルアーキテクチャ、データセットサイズ、クラスバランスの3つの要因がテスト時間のパフォーマンスに影響を与えることが示されていますが、完全には説明していません。
以前は、データセット品質と呼ばれる追加の要因について証拠が提示されていましたが、これが実際にはデータセットとモデルアーキテクチャの共同プロパティ、またはデータセット自体の本質的なプロパティであるかどうかは不明でした。
品質が真にデータセット内であり、モデルアーキテクチャ、データセットサイズ、およびクラスのバランスから独立している場合、同じデータセットがこれらの他の要因に関係なく、より良い(または悪い)パフォーマンスを発揮する必要があります。
この仮説をテストするために、ここでは数千のデータセットを作成します。それぞれがサイズとクラスのバランスを制御し、ランダムフォレストやサポートベクトルマシンからディープネットワークまで、さまざまなアーキテクチャで分類器を訓練します。
分類器のパフォーマンスは、アーキテクチャ間のサブセット($ r^2 = 0.79 $)を越えたサブセットによって強く相関しており、データセットのサイズとクラスのバランスとモデルアーキテクチャの独特のデータセットの本質的なプロパティとしての品質をサポートしていることがわかります。
より深く掘り下げると、データセットの品質は、より基本的なものの緊急プロパティであると思われます。つまり、データセットの構成クラスの品質です。
したがって、品質は、パフォーマンスの独立した相関関係と、機械学習ベースの分類を最適化するための個別のターゲットとして、サイズ、クラスバランス、モデルアーキテクチャを結合します。

要約(オリジナル)

In the universal quest to optimize machine-learning classifiers, three factors — model architecture, dataset size, and class balance — have been shown to influence test-time performance but do not fully account for it. Previously, evidence was presented for an additional factor that can be referred to as dataset quality, but it was unclear whether this was actually a joint property of the dataset and the model architecture, or an intrinsic property of the dataset itself. If quality is truly dataset-intrinsic and independent of model architecture, dataset size, and class balance, then the same datasets should perform better (or worse) regardless of these other factors. To test this hypothesis, here we create thousands of datasets, each controlled for size and class balance, and use them to train classifiers with a wide range of architectures, from random forests and support-vector machines to deep networks. We find that classifier performance correlates strongly by subset across architectures ($R^2=0.79$), supporting quality as an intrinsic property of datasets independent of dataset size and class balance and of model architecture. Digging deeper, we find that dataset quality appears to be an emergent property of something more fundamental: the quality of datasets’ constituent classes. Thus, quality joins size, class balance, and model architecture as an independent correlate of performance and a separate target for optimizing machine-learning-based classification.

arxiv情報

著者 Josiah Couch,Miao Li,Rima Arnaout,Ramy Arnaout
発行日 2025-06-04 16:02:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.LG, I.2.6 | X-Factor: Quality Is a Dataset-Intrinsic Property はコメントを受け付けていません

KVPR: Efficient LLM Inference with I/O-Aware KV Cache Partial Recomputation

要約

大規模な言語モデル(LLMS)の推論は計算的に要求があります。
自動回帰デコードのコストを削減するために、キー値(kV)キャッシュを使用して中間活性化を保存し、トークン生成の計算オーバーヘッドを大幅に低下させます。
ただし、KVキャッシュに必要なメモリは急速に成長し、GPUメモリの容量を超えることがよくあります。
費用対効果の高い代替手段は、KVキャッシュをCPUメモリにオフロードすることです。これにより、GPUメモリ圧力が軽減されますが、ボトルネックはCPUとGPUの間のPCIE接続の限られた帯域幅にシフトします。
既存の方法は、I/OとGPU計算を重複するか、CPU-GPUの不均一な実行を採用することにより、これらの問題に対処しようとしますが、それらは過剰なデータの動きとCPU機能への依存によって妨げられます。
KVキャッシュのサイズが大きくなったり、GPU計算機能が増加するにつれて、PCIE通信のレイテンシが完全に重複します。
このホワイトペーパーでは、CPUが最初にアクティブ化の部分的なセットを最初に転送し、そこからGPUがKVキャッシュ値の再計算を開始できるKVPRを紹介します。
GPUは部分KVキャッシュを再構成しますが、KVキャッシュの残りの部分はCPUから同時に転送されます。
このアプローチは、KVキャッシュ転送とGPUの再構成を重複させて、アイドルGPU時間を最小限に抑え、推論パフォーマンスを最大化します。
KVPRは、入力特性とシステムハードウェア情報、計算および通信ワークロードの分布を最適化するスケジューラモジュール、および派生した実行計画を効率的に実行するランタイムモジュールを利用するプロファイラーモジュールを統合することにより、完全に自動化されます。
実験結果は、KVPRが最先端のアプローチと比較して、デコード中に最大35.8%低いレイテンシと46.2%高いスループットを達成することを示しています。
このコードはhttps://github.com/chaoyij/kvprで入手できます。

要約(オリジナル)

Inference for Large Language Models (LLMs) is computationally demanding. To reduce the cost of auto-regressive decoding, Key-Value (KV) cache is used to store intermediate activations, which significantly lowers the computational overhead for token generation. However, the memory required for the KV cache grows rapidly, often exceeding the capacity of GPU memory. A cost-effective alternative is to offload KV cache to CPU memory, which alleviates GPU memory pressure, but shifts the bottleneck to the limited bandwidth of the PCIe connection between the CPU and GPU. Existing methods attempt to address these issues by overlapping GPU computation with I/O or employing CPU-GPU heterogeneous execution, but they are hindered by excessive data movement and dependence on CPU capabilities. Fully overlapping PCIe communication latency gets challenging as the size of the KV cache grows and/or the GPU compute capabilities increase. In this paper, we introduce KVPR, an efficient I/O-aware LLM inference method where the CPU first transfers a partial set of activations, from which the GPU can start recomputing the KV cache values. While the GPU recomputes the partial KV cache, the remaining portion of the KV cache is transferred concurrently from the CPU. This approach overlaps GPU recomputation with KV cache transfer to minimize idle GPU time and maximize inference performance. KVPR is fully automated by integrating a profiler module that utilizes input characteristics and system hardware information, a scheduler module to optimize the distribution of computation and communication workloads, and a runtime module to efficiently execute the derived execution plan. Experimental results show that KVPR achieves up to 35.8% lower latency and 46.2% higher throughput during decoding compared to state-of-the-art approaches. The code is available at https://github.com/chaoyij/KVPR.

arxiv情報

著者 Chaoyi Jiang,Lei Gao,Hossein Entezari Zarch,Murali Annavaram
発行日 2025-06-04 16:08:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, cs.PF | KVPR: Efficient LLM Inference with I/O-Aware KV Cache Partial Recomputation はコメントを受け付けていません

Guided Speculative Inference for Efficient Test-Time Alignment of LLMs

要約

ガイド付き投機推論(GSI)を提案します。これは、大規模な言語モデルでの効率的な報酬誘導デコードのための新しいアルゴリズムです。
GSIは、ソフトベストオブ – $ $ n $テスト時間スケーリングと報酬モデル$ r(x、y)$と小さな補助モデル$ \ pi_s(y \ mid x)$からの投機的サンプルを組み合わせています。
最適なチルトポリシー$ \ pi _ {\ beta、b}(y \ mid x)\ propto \ pi_b(y \ mid x)\ exp(\ beta \、y))$のプライマリモデル$ \ pi_b $。
誘導分布と最適なポリシーとの間のKLの発散に関する理論的バウンドを導き出します。
推論ベンチマーク(Math500、Olympiadbench、Minerva Math)の実験では、我々の方法は、$ \ Pi_s $および報酬ガイド付き投機的デコード(Liao et al。、2025)で標準のソフトベスト$ n $よりも高い精度を達成し、特定の設定では、$ $ n $を$ \ pi_bで均等にします。
このコードは、https://github.com/j-geuter/gsiで入手できます。

要約(オリジナル)

We propose Guided Speculative Inference (GSI), a novel algorithm for efficient reward-guided decoding in large language models. GSI combines soft best-of-$n$ test-time scaling with a reward model $r(x,y)$ and speculative samples from a small auxiliary model $\pi_S(y\mid x)$. We provably approximate the optimal tilted policy $\pi_{\beta,B}(y\mid x) \propto \pi_B(y\mid x)\exp(\beta\,r(x,y))$ of soft best-of-$n$ under the primary model $\pi_B$. We derive a theoretical bound on the KL divergence between our induced distribution and the optimal policy. In experiments on reasoning benchmarks (MATH500, OlympiadBench, Minerva Math), our method achieves higher accuracy than standard soft best-of-$n$ with $\pi_S$ and reward-guided speculative decoding (Liao et al., 2025), and in certain settings even outperforms soft best-of-$n$ with $\pi_B$. The code is available at https://github.com/j-geuter/GSI .

arxiv情報

著者 Jonathan Geuter,Youssef Mroueh,David Alvarez-Melis
発行日 2025-06-04 16:12:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, I.2.7, stat.ML | Guided Speculative Inference for Efficient Test-Time Alignment of LLMs はコメントを受け付けていません

Incremental Gradient Descent with Small Epoch Counts is Surprisingly Slow on Ill-Conditioned Problems

要約

最近の理論的結果は、順列ベースのSGDの収束速度(例えば、ランダム再構築SGD)が均一サンプリングSGDよりも速いことを示しています。
ただし、これらの研究は主に、エポック$ k $の数が条件数$ \ kappa $を超える大規模なエポック体制に焦点を当てています。
対照的に、$ k $が$ \ kappa $よりも小さい場合、ほとんど知られておらず、この小さなエポック体制で順列ベースのSGDがより速く収束できるかどうかは依然として挑戦的な公開問題です(Safran and Shamir、2021)。
このギャップを理解するためのステップとして、滑らかで強く凸関数について、素朴な決定論的変異、増分勾配降下(IGD)を研究します。
私たちの下限は、小さなエポック体制では、すべてのコンポーネント機能が強く凸である場合でも、IGDが驚くほど遅い収束を示すことができることを明らかにしています。
さらに、一部のコンポーネント関数が非凸になることが許可されている場合、IGDの最適性のギャップが小さなエポック体制全体で著しく悪化する可能性があることを証明します。
私たちの分析では、小さなエポック体制における順列ベースのSGDの収束特性は、コンポーネント関数の仮定によって劇的に異なる可能性があることが明らかになりました。
最後に、大規模なエポック体制におけるIGDのタイトな上限と下限を紙に補充します。

要約(オリジナル)

Recent theoretical results demonstrate that the convergence rates of permutation-based SGD (e.g., random reshuffling SGD) are faster than uniform-sampling SGD; however, these studies focus mainly on the large epoch regime, where the number of epochs $K$ exceeds the condition number $\kappa$. In contrast, little is known when $K$ is smaller than $\kappa$, and it is still a challenging open question whether permutation-based SGD can converge faster in this small epoch regime (Safran and Shamir, 2021). As a step toward understanding this gap, we study the naive deterministic variant, Incremental Gradient Descent (IGD), on smooth and strongly convex functions. Our lower bounds reveal that for the small epoch regime, IGD can exhibit surprisingly slow convergence even when all component functions are strongly convex. Furthermore, when some component functions are allowed to be nonconvex, we prove that the optimality gap of IGD can be significantly worse throughout the small epoch regime. Our analyses reveal that the convergence properties of permutation-based SGD in the small epoch regime may vary drastically depending on the assumptions on component functions. Lastly, we supplement the paper with tight upper and lower bounds for IGD in the large epoch regime.

arxiv情報

著者 Yujun Kim,Jaeyoung Cha,Chulhee Yun
発行日 2025-06-04 16:17:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | Incremental Gradient Descent with Small Epoch Counts is Surprisingly Slow on Ill-Conditioned Problems はコメントを受け付けていません