A Simplified Analysis of SGD for Linear Regression with Weight Averaging

要約

理論的には、オーバーパラメーター化されたモデルで確率的勾配降下(SGD)を理解することで、今日実際に広く使用されているいくつかの最適化アルゴリズムの開発につながりました。
〜\ citet {Zou2021benign}による最近の研究は、リスクのバイアス分散分解に基づいて、テールの繰り返し平均化の有無にかかわらず、一定の学習速度を使用して線形回帰におけるSGD最適化の急激なレートを提供します。
私たちの作業では、単純な線形代数ツールに基づいて〜\ citep {zou2021benign}で提供される同じバイアスと分散境界を回復する単純化された分析を提供し、正の半定義(PSD)マトリックスでオペレーターを操作する要件をバイパスします。
私たちの研究により、線形回帰に関するSGDの分析が非常にアクセスしやすくなり、ミニバッチと学習レートのスケジューリングをさらに分析し、現実的なモデルのトレーニングの改善につながると考えています。

要約(オリジナル)

Theoretically understanding stochastic gradient descent (SGD) in overparameterized models has led to the development of several optimization algorithms that are widely used in practice today. Recent work by~\citet{zou2021benign} provides sharp rates for SGD optimization in linear regression using constant learning rate, both with and without tail iterate averaging, based on a bias-variance decomposition of the risk. In our work, we provide a simplified analysis recovering the same bias and variance bounds provided in~\citep{zou2021benign} based on simple linear algebra tools, bypassing the requirement to manipulate operators on positive semi-definite (PSD) matrices. We believe our work makes the analysis of SGD on linear regression very accessible and will be helpful in further analyzing mini-batching and learning rate scheduling, leading to improvements in the training of realistic models.

arxiv情報

著者 Alexandru Meterez,Depen Morwani,Costin-Andrei Oncescu,Jingfeng Wu,Cengiz Pehlevan,Sham Kakade
発行日 2025-06-18 15:10:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML | A Simplified Analysis of SGD for Linear Regression with Weight Averaging はコメントを受け付けていません

Stable Gradients for Stable Learning at Scale in Deep Reinforcement Learning

要約

深い補強学習ネットワークのスケーリングは困難であり、多くの場合、パフォーマンスが低下しますが、この障害モードの根本原因はよく理解されていません。
いくつかの最近の作品はこれに対処するためのメカニズムを提案していますが、それらはしばしば複雑であり、この困難の根底にある原因を強調することができません。
この作業では、一連の経験的分析を実施します。これは、非定常性と勾配病理学の組み合わせが、次の構造の選択により、規模の課題の根底にあることを示唆しています。
勾配の流れを安定させる一連の直接的な介入を提案し、さまざまなネットワークの深さと幅にわたって堅牢なパフォーマンスを可能にします。
私たちの介入は、実装が簡単であり、確立されたアルゴリズムと互換性があり、大規模でも強力なパフォーマンスを可能にする効果的なメカニズムをもたらします。
さまざまなエージェントやスイートの環境に関する調査結果を検証します。

要約(オリジナル)

Scaling deep reinforcement learning networks is challenging and often results in degraded performance, yet the root causes of this failure mode remain poorly understood. Several recent works have proposed mechanisms to address this, but they are often complex and fail to highlight the causes underlying this difficulty. In this work, we conduct a series of empirical analyses which suggest that the combination of non-stationarity with gradient pathologies, due to suboptimal architectural choices, underlie the challenges of scale. We propose a series of direct interventions that stabilize gradient flow, enabling robust performance across a range of network depths and widths. Our interventions are simple to implement and compatible with well-established algorithms, and result in an effective mechanism that enables strong performance even at large scales. We validate our findings on a variety of agents and suites of environments.

arxiv情報

著者 Roger Creus Castanyer,Johan Obando-Ceron,Lu Li,Pierre-Luc Bacon,Glen Berseth,Aaron Courville,Pablo Samuel Castro
発行日 2025-06-18 15:17:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Stable Gradients for Stable Learning at Scale in Deep Reinforcement Learning はコメントを受け付けていません

$k$-Submodular Interdiction Problems under Distributional Risk-Receptiveness and Robustness: Application to Machine Learning

要約

不確実性や攻撃を受けやすいデータを使用した機能選択などの機械学習の問題に適用される敵対的なコンテキストでの類似の最適化を研究します。
攻撃者(またはインターディクター)と攻撃者がA $ K $ -Submodular関数を最大化するというディフェンダーの目的を最小限に抑えることを目指しているディフェンダーの間のスタッカーバーグゲームに焦点を当てています。
攻撃の成功と固有のデータノイズの成功から生じる不確実性を許可し、ランダムパラメーターの確率分布の知識が不完全なため、課題に対処します。
具体的には、分配的に堅牢な$ k $ k $ -Submodular intriction問題(DRO $ k $ -SIP)および分布的にリスク受容的な$ K $ -Submodular断続的な問題(DRR $ K $ -SIP)と、それらを解くための有益な収束正確なアルゴリズムを導入します。
DRO $ K $ -SIPを解決するとき、攻撃者は、あいまいさセット内の最悪の確率分布に関して予想されるペイオフを最適化し、それにより分布のあいまいさにもかかわらず堅牢な攻撃戦略があります。
対照的に、DRR $ K $ -SIPは、攻撃者戦略を最高のケース確率分布で識別し、ディフェンダーの重要な脆弱性を特定します。
DRO $ k $ -SIPとDRR $ K $ -SIPの両方から派生した最適な値は、ディフェンダーの目的関数の期待値に対して信頼区間のような範囲を提供し、分布のあいまいさをキャプチャします。
ウィスコンシンの乳がんデータと合成データを使用して、特徴の選択とセンサーの配置問題のインスタンスについて計算実験を実施します。

要約(オリジナル)

We study submodular optimization in adversarial context, applicable to machine learning problems such as feature selection using data susceptible to uncertainties and attacks. We focus on Stackelberg games between an attacker (or interdictor) and a defender where the attacker aims to minimize the defender’s objective of maximizing a $k$-submodular function. We allow uncertainties arising from the success of attacks and inherent data noise, and address challenges due to incomplete knowledge of the probability distribution of random parameters. Specifically, we introduce Distributionally Robust $k$-Submodular Interdiction Problem (DRO $k$-SIP) and Distributionally Risk-Receptive $k$-Submodular Interdiction Problem (DRR $k$-SIP) along with finitely convergent exact algorithms for solving them. When solving the DRO $k$-SIP, the attacker optimizes their expected payoff with respect to the worst-case probability distribution within the ambiguity set, and thereby have robust attack strategies despite distributional ambiguity. In contrast, the DRR $k$-SIP identifies attacker strategies with the best-case probability distribution, and identifies critical vulnerabilities for the defender. The optimal values derived from both DRO $k$-SIP and DRR $k$-SIP offer a confidence interval-like range for the expected value of the defender’s objective function, capturing distributional ambiguity. We conduct computational experiments on instances of feature selection and sensor placement problems, using Wisconsin breast cancer data and synthetic data, respectively.

arxiv情報

著者 Seonghun Park,Manish Bansal
発行日 2025-06-18 15:33:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | $k$-Submodular Interdiction Problems under Distributional Risk-Receptiveness and Robustness: Application to Machine Learning はコメントを受け付けていません

GL-LowPopArt: A Nearly Instance-Wise Minimax-Optimal Estimator for Generalized Low-Rank Trace Regression

要約

一般化された低ランク微量回帰のための新しいカトーニスタイルの推定器である「GL-LowPopart」を提示します。
「Lowpopart」(Jang et al。、2024)に基づいて、2段階のアプローチを採用しています。核規範の正規化に続いてマトリックスカトニの推定です。
既存の保証を上回り(Fan et al。、2019; Kang et al。、2022)、最先端の推定エラー境界を確立し、新しい実験設計目的$ \ mathrm {gl}(\ pi)$を明らかにします。
重要な技術的課題は、2段階のアプローチによって対処する非線形逆リンク関数からのバイアスを制御することです。
私たちは *ローカル *ミニマックスの下限を証明し、「Gl-lowpopart」が地上真実のヘシアンの条件数までインスタンスごとの最適性を享受していることを示しています。
アプリケーションには、一般化された線形マトリックスの完了が含まれます。ここでは、「GL-lowpopart」は、最先端のFrobeniusエラー保証を実現します。
「gl-lowpopart」ベースのExplore-then-commitアルゴリズムの分析により、新しい、潜在的に興味深い問題依存量が明らかになり、vectorizationよりも改善されたBordaの後悔が拘束されました(Wu et al。、2024)。

要約(オリジナル)

We present `GL-LowPopArt`, a novel Catoni-style estimator for generalized low-rank trace regression. Building on `LowPopArt` (Jang et al., 2024), it employs a two-stage approach: nuclear norm regularization followed by matrix Catoni estimation. We establish state-of-the-art estimation error bounds, surpassing existing guarantees (Fan et al., 2019; Kang et al., 2022), and reveal a novel experimental design objective, $\mathrm{GL}(\pi)$. The key technical challenge is controlling bias from the nonlinear inverse link function, which we address by our two-stage approach. We prove a *local* minimax lower bound, showing that our `GL-LowPopArt` enjoys instance-wise optimality up to the condition number of the ground-truth Hessian. Applications include generalized linear matrix completion, where `GL-LowPopArt` achieves a state-of-the-art Frobenius error guarantee, and **bilinear dueling bandits**, a novel setting inspired by general preference learning (Zhang et al., 2024). Our analysis of a `GL-LowPopArt`-based explore-then-commit algorithm reveals a new, potentially interesting problem-dependent quantity, along with improved Borda regret bound than vectorization (Wu et al., 2024).

arxiv情報

著者 Junghyun Lee,Kyoungseok Jang,Kwang-Sung Jun,Milan Vojnović,Se-Young Yun
発行日 2025-06-18 15:42:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | GL-LowPopArt: A Nearly Instance-Wise Minimax-Optimal Estimator for Generalized Low-Rank Trace Regression はコメントを受け付けていません

Task-Agnostic Experts Composition for Continual Learning

要約

構成性は、複雑な問題を単純な要素に分解できるようにする人間の推論プロセスの基本的な能力の1つです。
このようなプロパティは、特により効率的で持続可能なAIフレームワークを目指す場合、ニューラルネットワークにとっても重要です。
Zero-shotをゼロショットにして、一連のエキスパートモデルをゼロショットして、構成性の機能をテストするように設計された挑戦的なベンチマークを使用して方法論を評価することにより、構成アプローチを提案します。
専門家の構成方法は、より少ない計算リソースを必要としながら、ベースラインアルゴリズムよりもはるかに高い精度を達成できるため、より効率的であることを示しています。

要約(オリジナル)

Compositionality is one of the fundamental abilities of the human reasoning process, that allows to decompose a complex problem into simpler elements. Such property is crucial also for neural networks, especially when aiming for a more efficient and sustainable AI framework. We propose a compositional approach by ensembling zero-shot a set of expert models, assessing our methodology using a challenging benchmark, designed to test compositionality capabilities. We show that our Expert Composition method is able to achieve a much higher accuracy than baseline algorithms while requiring less computational resources, hence being more efficient.

arxiv情報

著者 Luigi Quarantiello,Andrea Cossu,Vincenzo Lomonaco
発行日 2025-06-18 15:43:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Task-Agnostic Experts Composition for Continual Learning はコメントを受け付けていません

MicroRicci: A Greedy and Local Ricci Flow Solver for Self-Tuning Mesh Smoothing

要約

規模のリアルタイムメッシュスムージングは​​恐ろしい課題のままです。古典的なリッチフローソルバーは、費用のかかるグローバルアップデートを要求しますが、貪欲なヒューリスティックはゆっくりと収束または脆いチューニングに苦しんでいます。
コード理論からアイデアを借用し、わずか1k + 200パラメーターに詰め込む最初の真にセルフチューニングのローカルリッチフローソルバーであるMicroricciを紹介します。
その主要なコアは、O(E)時間の最大の曲率誤差を特定して修正する貪欲な症候群デコードステップです。
110のSJTU-TMQAメッシュの多様なセットでは、マイクロリッチスラッシュ反復は950+= 140から400+= 80(2.4xスピードアップ)にカウントされ、0.19から0.185に拡散し、R = -0.93の顕著な紫外線のuv-distortor-to-mos相関を達成します。
1回の反復あたり0.25ミリ秒(0.80〜1.05ミリ秒)を追加し、最先端の方法でエンドツーエンドのランタイム加速度を生成します。
Microricciの線形時間更新、自動ハイパーパラメーター適応、および高品質の幾何学的および知覚結果の組み合わせにより、グラフィックス、シミュレーション、および関連フィールドのリアルタイムでリソース制限されたアプリケーションに適しています。

要約(オリジナル)

Real-time mesh smoothing at scale remains a formidable challenge: classical Ricci-flow solvers demand costly global updates, while greedy heuristics suffer from slow convergence or brittle tuning. We present MicroRicci, the first truly self-tuning, local Ricci-flow solver that borrows ideas from coding theory and packs them into just 1K + 200 parameters. Its primary core is a greedy syndrome-decoding step that pinpoints and corrects the largest curvature error in O(E) time, augmented by two tiny neural modules that adaptively choose vertices and step sizes on the fly. On a diverse set of 110 SJTU-TMQA meshes, MicroRicci slashes iteration counts from 950+=140 to 400+=80 (2.4x speedup), tightens curvature spread from 0.19 to 0.185, and achieves a remarkable UV-distortion-to-MOS correlation of r = -0.93. It adds only 0.25 ms per iteration (0.80 to 1.05 ms), yielding an end-to-end 1.8x runtime acceleration over state-of-the-art methods. MicroRicci’s combination of linear-time updates, automatic hyperparameter adaptation, and high-quality geometric and perceptual results makes it well suited for real-time, resource-limited applications in graphics, simulation, and related fields.

arxiv情報

著者 Le Vu Anh,Nguyen Viet Anh,Mehmet Dik,Tu Nguyen Thi Ngoc
発行日 2025-06-18 15:48:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GR, cs.LG | MicroRicci: A Greedy and Local Ricci Flow Solver for Self-Tuning Mesh Smoothing はコメントを受け付けていません

Near-Optimal Clustering in Mixture of Markov Chains

要約

長さ$ h $の$ t $軌道をクラスタリングする問題を研究します。それぞれが、$ k $未知のエルゴードマルコフチェーンの1つによって生成され、$ s $の有限状態空間にわたって生成されます。
目標は、基礎となる生成モデルに従って軌道を正確にグループ化することです。
まず、チェーンの遷移カーネル間の加重KLの発散によって支配されるクラスタリングエラー率のインスタンス依存性の高強度の下限を導き出すことから始めます。
次に、新しい2段階のクラスタリングアルゴリズムを提示します。
ステージ〜Iでは、エルゴジックマルコフチェーンに新しいインジェクチブユークリッド埋め込みを使用してスペクトルクラスタリングを適用します。これは、シャープ濃度の結果を可能にする独立した関心の貢献です。
ステージ〜IIは、尤度ベースの再割り当ての単一のステップを介して、初期クラスターを改良します。
Our method achieves a near-optimal clustering error with high probability, under the conditions $H = \tilde{\Omega}(\gamma_{\mathrm{ps}}^{-1} (S^2 \vee \pi_{\min}^{-1}))$ and $TH =
\ tilde {\ omega}(\ gamma _ {\ mathrm {ps}}^{-1} s^2)$、ここで$ \ pi _ {\ min} $は、$ k $ chainsと$ \ gamma _ {\ mathrm {\ mathrm {ps $ $ $ $ $ $ $ $ $ gamma}の$ k $ chainsの最小定常確率です。
これらの要件は、少なくとも同等ではないにしても、最先端の保証(Kausik et al。、2023)に大幅な改善を提供し、さらに、アルゴリズムは重要な実用的な利点を提供します。既存のアプローチとは異なり、モデル固有の量の事前知識は必要ありません(例えば、カーネルまたは視覚的確率の分離)。
締めくくり、上限と下限の間の固有のギャップについて議論し、このクラスタリング問題のユニークな構造に関する洞察を提供します。

要約(オリジナル)

We study the problem of clustering $T$ trajectories of length $H$, each generated by one of $K$ unknown ergodic Markov chains over a finite state space of size $S$. The goal is to accurately group trajectories according to their underlying generative model. We begin by deriving an instance-dependent, high-probability lower bound on the clustering error rate, governed by the weighted KL divergence between the transition kernels of the chains. We then present a novel two-stage clustering algorithm. In Stage~I, we apply spectral clustering using a new injective Euclidean embedding for ergodic Markov chains — a contribution of independent interest that enables sharp concentration results. Stage~II refines the initial clusters via a single step of likelihood-based reassignment. Our method achieves a near-optimal clustering error with high probability, under the conditions $H = \tilde{\Omega}(\gamma_{\mathrm{ps}}^{-1} (S^2 \vee \pi_{\min}^{-1}))$ and $TH = \tilde{\Omega}(\gamma_{\mathrm{ps}}^{-1} S^2 )$, where $\pi_{\min}$ is the minimum stationary probability of a state across the $K$ chains and $\gamma_{\mathrm{ps}}$ is the minimum pseudo-spectral gap. These requirements provide significant improvements, if not at least comparable, to the state-of-the-art guarantee (Kausik et al., 2023), and moreover, our algorithm offers a key practical advantage: unlike existing approach, it requires no prior knowledge of model-specific quantities (e.g., separation between kernels or visitation probabilities). We conclude by discussing the inherent gap between our upper and lower bounds, providing insights into the unique structure of this clustering problem.

arxiv情報

著者 Junghyun Lee,Yassir Jedra,Alexandre Proutière,Se-Young Yun
発行日 2025-06-18 15:49:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, math.PR, stat.ML | Near-Optimal Clustering in Mixture of Markov Chains はコメントを受け付けていません

A Gravity-informed Spatiotemporal Transformer for Human Activity Intensity Prediction

要約

人間の活動強度予測は、多くのロケーションベースのサービスにとって重要です。
人間の活動の動的な時空間パターンをモデル化するための大きな進歩がなされていますが、空間的グラフニューラルネットワーク(ST-GNNS)を含むほとんどの既存の方法は、空間相互作用の物理的制約と空間相関モデリングにおける滑らかな現象を見落としています。
これらの制限に対処するために、この作業では、物理学に基づいたディープラーニングフレームワーク、すなわち、重力に基づいた空間変圧器(重力形態)を提案します。トランスの注意を改善して重力の普遍的な法則を統合し、空間相互作用から制約を明示的に組み込むことにより。
具体的には、(1)インフローと流出に基づいた2つの空間的に明示的な質量パラメーターを推定します。(2)空間モデルのランダム性を制約するために空間的相互作用の閉形式溶液を使用して、クロスユニット相互作用の可能性をモデル化し、(3)学習した空間的相互作用を活用して、誘惑を導き、緩和します。
人間の活動の根本的な法則は、提案された適応重力モデルによって明示的にモデル化される可能性があります。
さらに、結合された空間学習と時間学習のバランスをとるために、平行した時空グラフ畳み込み変圧器構造が提案されています。
6つの現実世界の大規模なアクティビティデータセットでの体系的な実験は、最先端のベンチマークに対するアプローチの定量的および定性的な優位性を示しています。
さらに、学習した重力注意マトリックスは、地理的法則に基づいて解釈して解釈することができます。
この研究は、物理的法則を空間的予測学習のための深い学習と統合するという新しい洞察を提供します。

要約(オリジナル)

Human activity intensity prediction is a crucial to many location-based services. Although tremendous progress has been made to model dynamic spatiotemporal patterns of human activity, most existing methods, including spatiotemporal graph neural networks (ST-GNNs), overlook physical constraints of spatial interactions and the over-smoothing phenomenon in spatial correlation modeling. To address these limitations, this work proposes a physics-informed deep learning framework, namely Gravity-informed Spatiotemporal Transformer (Gravityformer) by refining transformer attention to integrate the universal law of gravitation and explicitly incorporating constraints from spatial interactions. Specifically, it (1) estimates two spatially explicit mass parameters based on inflow and outflow, (2) models the likelihood of cross-unit interaction using closed-form solutions of spatial interactions to constrain spatial modeling randomness, and (3) utilizes the learned spatial interaction to guide and mitigate the over-smoothing phenomenon in transformer attention matrices. The underlying law of human activity can be explicitly modeled by the proposed adaptive gravity model. Moreover, a parallel spatiotemporal graph convolution transformer structure is proposed for achieving a balance between coupled spatial and temporal learning. Systematic experiments on six real-world large-scale activity datasets demonstrate the quantitative and qualitative superiority of our approach over state-of-the-art benchmarks. Additionally, the learned gravity attention matrix can be disentangled and interpreted based on geographical laws. This work provides a novel insight into integrating physical laws with deep learning for spatiotemporal predictive learning.

arxiv情報

著者 Yi Wang,Zhenghong Wang,Fan Zhang,Chengling Tang,Chaogui Kang,Di Zhu,Zhongfu Ma,Sijie Ruan,Weiyu Zhang,Yu Zheng,Philip S. Yu,Yu Liu
発行日 2025-06-18 16:04:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | A Gravity-informed Spatiotemporal Transformer for Human Activity Intensity Prediction はコメントを受け付けていません

Memory-Efficient Differentially Private Training with Gradient Random Projection

要約

差動プライバシー(DP)は、ニューラルネットワークトレーニング中に機密データを保護しますが、DP-Adamなどの標準的な方法は、サンプルあたりの勾配クリッピングのために高いメモリオーバーヘッドに苦しみ、スケーラビリティが制限されます。
DP-Grape(Gradient Random Projection)を紹介します。DP-Grapeは、1次DPアプローチと同等のユーティリティを維持しながら、メモリ使用量を大幅に削減するDPトレーニング方法です。
DP-Grapeは、DPをGaloreに直接適用するのではなく、3つの重要な修正を導入します。(1)勾配は投影後に民営化され、(2)ランダムガウスマトリックスはSVDベースのサブスペースを置き換え、(3)バックプロパンジ中に投影が適用されます。
これらの貢献により、費用のかかるSVD計算の必要性がなくなり、大幅なメモリの節約が可能になり、ユーティリティの改善につながります。
低次元のサブスペースで動作しているにもかかわらず、私たちの理論分析は、DP-GrapeがDP-SGDに匹敵するプライバシー – 有効性のトレードオフを達成することを示しています。
私たちの広範な経験的実験は、DPグレープが精度やトレーニング時間を犠牲にすることなくDPトレーニングのメモリフットプリントを減らすことができることを示しています。
特に、DP-Grapeは、トレーニング前の視力変圧器の場合、DP-Adamと比較してRoberta-Largeを微調整すると70%以上を63%以上削減し、同様のパフォーマンスを達成します。
さらに、DPグレープは、最大67億パラメーターのOPTなどの大規模なモデルを微調整することを実証します。

要約(オリジナル)

Differential privacy (DP) protects sensitive data during neural network training, but standard methods like DP-Adam suffer from high memory overhead due to per-sample gradient clipping, limiting scalability. We introduce DP-GRAPE (Gradient RAndom ProjEction), a DP training method that significantly reduces memory usage while maintaining utility on par with first-order DP approaches. Rather than directly applying DP to GaLore, DP-GRAPE introduces three key modifications: (1) gradients are privatized after projection, (2) random Gaussian matrices replace SVD-based subspaces, and (3) projection is applied during backpropagation. These contributions eliminate the need for costly SVD computations, enable substantial memory savings, and lead to improved utility. Despite operating in lower-dimensional subspaces, our theoretical analysis shows that DP-GRAPE achieves a privacy-utility trade-off comparable to DP-SGD. Our extensive empirical experiments show that DP-GRAPE can reduce the memory footprint of DP training without sacrificing accuracy or training time. In particular, DP-GRAPE reduces memory usage by over 63% when pre-training Vision Transformers and over 70% when fine-tuning RoBERTa-Large as compared to DP-Adam, while achieving similar performance. We further demonstrate that DP-GRAPE scales to fine-tuning large models such as OPT with up to 6.7 billion parameters.

arxiv情報

著者 Alex Mulrooney,Devansh Gupta,James Flemings,Huanyu Zhang,Murali Annavaram,Meisam Razaviyayn,Xinwei Zhang
発行日 2025-06-18 16:05:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, I.2.10 | Memory-Efficient Differentially Private Training with Gradient Random Projection はコメントを受け付けていません

Alternating Regret for Online Convex Optimization

要約

Cevher et al。(2024)による最近の研究は、2人のプレイヤーゲームで学習ダイナミクスを交互に行うことに動機付けられています。
連続ヘッジアルゴリズムが$ \ tilde {\ mathcal {o}}(d^{\ frac {2} {3}}}} {\ frac {1} {3}})$ noverial $ d-dimensional ofsobutionの後悔の後悔の後悔を交互にすることを示すことにより、この質問に答えます。
これは、凸型ゼロサムゲームのナッシュ平衡または凸型の2プレイヤーゼネラルゲームの粗い相関平衡を見つける代替学習ダイナミクスを意味することを示しています。
$ \ tilde {\ mathcal {o}}(d^{\ frac {2} {3}}/t^{\ frac {2} {3}})$。
時間の複雑さおよび/または寸法依存性をさらに向上させるために、凸型のコンジュゲートが3次の滑らかである正規者を備えた正規化された別の単純なアルゴリズムを提案します。
アルゴリズムを異なる正規者でインスタンス化し、たとえば、決定セットが$ \ ell_2 $ボールである場合、アルゴリズムは$ \ mathcal {o}}(t^{\ frac {2} {5}})$ $ \ frac {2} {5}}を達成することを示しています。
$ \ tilde {\ mathcal {o}}(t^{\ frac {1} {3}})$ bound for quadratic loses)。
私たちの結果を補完します。アルゴリズム固有の交互の後悔の下限を示すことで、やや驚くべき$ \ omega(\ sqrt {t})$下限を示して、交互の学習ダイナミクスに広く使用されている後悔の一致バリアントを含めます。

要約(オリジナル)

Motivated by alternating learning dynamics in two-player games, a recent work by Cevher et al.(2024) shows that $o(\sqrt{T})$ alternating regret is possible for any $T$-round adversarial Online Linear Optimization (OLO) problem, and left as an open question whether the same is true for general Online Convex Optimization (OCO). We answer this question in the affirmative by showing that the continuous Hedge algorithm achieves $\tilde{\mathcal{O}}(d^{\frac{2}{3}}T^{\frac{1}{3}})$ alternating regret for any adversarial $d$-dimensional OCO problems. We show that this implies an alternating learning dynamic that finds a Nash equilibrium for any convex-concave zero-sum games or a coarse correlated equilibrium for any convex two-player general-sum games at a rate of $\tilde{\mathcal{O}}(d^{\frac{2}{3}}/T^{\frac{2}{3}})$. To further improve the time complexity and/or the dimension dependence, we propose another simple algorithm, Follow-the-Regularized-Leader with a regularizer whose convex conjugate is 3rd-order smooth, for OCO with smooth and self-concordant loss functions (such as linear or quadratic losses). We instantiate our algorithm with different regularizers and show that, for example, when the decision set is the $\ell_2$ ball, our algorithm achieves $\tilde{\mathcal{O}}(T^{\frac{2}{5}})$ alternating regret with no dimension dependence (and a better $\tilde{\mathcal{O}}(T^{\frac{1}{3}})$ bound for quadratic losses). We complement our results by showing some algorithm-specific alternating regret lower bounds, including a somewhat surprising $\Omega(\sqrt{T})$ lower bound for a Regret Matching variant that is widely used in alternating learning dynamics.

arxiv情報

著者 Soumita Hait,Ping Li,Haipeng Luo,Mengxiao Zhang
発行日 2025-06-18 16:11:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Alternating Regret for Online Convex Optimization はコメントを受け付けていません