Carbon Aware Transformers Through Joint Model-Hardware Optimization

要約

機械学習(ML)システムの急速な成長により、その環境への影響、特に学習や推論実行による運用炭素と、ハードウェアの製造やそのライフサイクル全体から発生する体積炭素からなるカーボンフットプリントのより包括的な評価が必要となっている。具体化された排出量の重要性が増しているにもかかわらず、MLシステムの総カーボン・フットプリントを総合的に定量化し、最適化するツールやフレームワークが不足している。これに対処するため、我々は、MLモデルとハードウェアアーキテクチャの持続可能性主導の協調最適化を可能にする、炭素を考慮したアーキテクチャ探索フレームワークであるCATransformersを提案する。CATransformersは、ドメイン固有のハードウェアアクセラレータの設計空間探索の初期段階において、運用と具現化の両方の炭素メトリクスを組み込むことで、炭素を考慮した最適化が、レイテンシやエネルギー効率のみを考慮した最適化とは異なる設計選択をもたらすことを実証する。このフレームワークをマルチモーダルCLIPベースのモデルに適用し、CarbonCLIPというCLIPモデルファミリーを作成しました。CarbonCLIPは、最新のエッジスモールCLIPベースラインと比較して、精度とレイテンシを維持しながら、総炭素排出量を最大17%削減することができます。この研究は、高性能で環境的に持続可能なAIシステムを設計するための全体最適化手法の必要性を強調している。

要約(オリジナル)

The rapid growth of machine learning (ML) systems necessitates a more comprehensive evaluation of their environmental impact, particularly their carbon footprint, which comprises operational carbon from training and inference execution and embodied carbon from hardware manufacturing and its entire life-cycle. Despite the increasing importance of embodied emissions, there is a lack of tools and frameworks to holistically quantify and optimize the total carbon footprint of ML systems. To address this, we propose CATransformers, a carbon-aware architecture search framework that enables sustainability-driven co-optimization of ML models and hardware architectures. By incorporating both operational and embodied carbon metrics into early design space exploration of domain-specific hardware accelerators, CATransformers demonstrates that optimizing for carbon yields design choices distinct from those optimized solely for latency or energy efficiency. We apply our framework to multi-modal CLIP-based models, producing CarbonCLIP, a family of CLIP models achieving up to 17% reduction in total carbon emissions while maintaining accuracy and latency compared to state-of-the-art edge small CLIP baselines. This work underscores the need for holistic optimization methods to design high-performance, environmentally sustainable AI systems.

arxiv情報

著者 Irene Wang,Newsha Ardalani,Mostafa Elhoushi,Daniel Jiang,Samuel Hsia,Ekin Sumbul,Divya Mahajan,Carole-Jean Wu,Bilge Acun
発行日 2025-05-02 16:49:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AR, cs.LG | Carbon Aware Transformers Through Joint Model-Hardware Optimization はコメントを受け付けていません

An Efficient Matrix Multiplication Algorithm for Accelerating Inference in Binary and Ternary Neural Networks

要約

大規模言語モデル(Large Language Models:LLM)のようなディープニューラルネットワーク(Deep Neural Network:DNN)は、その大きな成功と汎用性にもかかわらず、推論効率の悪さに苦しみ、高度な計算インフラに依存している。これらの課題に対処し、これらのモデルをより利用しやすく、費用対効果の高いものにするために、本稿では、2値及び3値の重み行列を持つDNNの推論時間とメモリ効率を改善するアルゴリズムを提案する。特に推論のボトルネックとなる行列の乗算に着目し、一度学習したモデルの重み行列はもはや変化しないことを観察する。これにより、これらの行列を前処理し、効率的な推論アルゴリズムを可能にしながら、ストレージの必要量を対数倍削減するのに役立つインデックスを作成することができる。具体的には、$n倍n$の重み行列に対して、我々の効率的なアルゴリズムは$O(˶frac{n^2}{log n})$の時間複雑度を保証し、標準的なベクトルと行列の掛け算に対して対数倍改善する。理論的な解析に加えて、我々のアルゴリズムの実用的な効率を評価するために広範な実験を行った。その結果、乗算時間は最大29倍、メモリ使用量は最大6倍の削減が確認され、時間とメモリの両面で本アプローチの優位性が確認された。LLMに適用した場合、我々の実験では推論時間が最大5.24倍高速化した。

要約(オリジナル)

Despite their tremendous success and versatility, Deep Neural Networks (DNNs) such as Large Language Models (LLMs) suffer from inference inefficiency and rely on advanced computational infrastructure. To address these challenges and make these models more accessible and cost-effective, in this paper, we propose algorithms to improve the inference time and memory efficiency of DNNs with binary and ternary weight matrices. Particularly focusing on matrix multiplication as the bottleneck operation of inference, we observe that, once trained, the weight matrices of a model no longer change. This allows us to preprocess these matrices and create indices that help reduce the storage requirements by a logarithmic factor while enabling our efficient inference algorithms. Specifically, for a $n\times n$ weight matrix, our efficient algorithm guarantees a time complexity of $O(\frac{n^2}{\log n})$, a logarithmic factor improvement over the standard vector-matrix multiplication. Besides theoretical analysis, we conduct extensive experiments to evaluate the practical efficiency of our algorithms. Our results confirm the superiority of our approach both with respect to time and memory, as we observed a reduction in the multiplication time up to 29x and memory usage up to 6x. When applied to LLMs, our experiments show up to a 5.24x speedup in the inference time.

arxiv情報

著者 Mohsen Dehghankar,Mahdi Erfanian,Abolfazl Asudeh
発行日 2025-05-02 16:58:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.DS, cs.LG | An Efficient Matrix Multiplication Algorithm for Accelerating Inference in Binary and Ternary Neural Networks はコメントを受け付けていません

Learning and Transferring Physical Models through Derivatives

要約

我々は、偏導関数を学習することで物理システムをモデル化する教師ありアプローチである導関数学習(DERL)を提案する。また、DERLを活用し、事前学習済みモデルから学習済みモデルへ効果的に知識を転送する蒸留プロトコルを設計することで、物理モデルを段階的に構築する。経験的導関数を用いた場合でも、基礎となる物理法則と矛盾することなく、真の物理システムを学習できることを理論的に保証する。DERLは、ODEを未知の初期条件に、パラメトリックPDEを未知のパラメータに一般化する際に、最先端の手法を凌駕する性能を発揮する。最後に、DERLに基づき、物理領域の新しい部分やPDEパラメータの新しい範囲に拡張することで、モデル間で物理的知識を伝達する方法を提案する。これは、物理モデルを多段階でインクリメンタルに構築する最初の試みであると考える。

要約(オリジナル)

We propose Derivative Learning (DERL), a supervised approach that models physical systems by learning their partial derivatives. We also leverage DERL to build physical models incrementally, by designing a distillation protocol that effectively transfers knowledge from a pre-trained to a student model. We provide theoretical guarantees that our approach can learn the true physical system, being consistent with the underlying physical laws, even when using empirical derivatives. DERL outperforms state-of-the-art methods in generalizing an ODE to unseen initial conditions and a parametric PDE to unseen parameters. We finally propose a method based on DERL to transfer physical knowledge across models by extending them to new portions of the physical domain and new range of PDE parameters. We believe this is the first attempt at building physical models incrementally in multiple stages.

arxiv情報

著者 Alessandro Trenta,Andrea Cossu,Davide Bacciu
発行日 2025-05-02 17:02:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | Learning and Transferring Physical Models through Derivatives はコメントを受け付けていません

Generating synthetic data for neural operators

要約

最近の文献の進歩は、現在の数値ソルバーが到達できない偏微分方程式(PDE)の数値解を得るためのディープラーニング手法、特にニューラル演算子の有望な可能性を示している。しかし、既存のデータ駆動型アプローチは、数値PDEソルバー(例えば、有限差分法や有限要素法)によって生成された学習データに依存することが多い。我々は、PDEを数値的に解くことを避ける「後方」データ生成法を導入する。適切な解空間(例えば$H_0^1(˶‾᷄ -̫ ᷅˵)$)からランダムに解の候補$u_j$をサンプリングすることにより、対応する右辺$f_j$を方程式から直接微分して計算する。これにより、データ点ごとにPDEを数値的に解くのではなく、導関数を計算することで学習ペア${(f_j, u_j)}$を生成し、厳密解からなる高速かつ大規模なデータ生成が可能となる。実験によれば、この合成データで学習したモデルは、標準的なソルバーで生成されたデータでテストした場合、よく一般化する。アイデアは単純だが、この方法によって、データ生成に古典的な数値ソルバーに頼らないニューラルPDEソルバーの可能性が広がることを期待している。

要約(オリジナル)

Recent advances in the literature show promising potential of deep learning methods, particularly neural operators, in obtaining numerical solutions to partial differential equations (PDEs) beyond the reach of current numerical solvers. However, existing data-driven approaches often rely on training data produced by numerical PDE solvers (e.g., finite difference or finite element methods). We introduce a ‘backward’ data generation method that avoids solving the PDE numerically: by randomly sampling candidate solutions $u_j$ from the appropriate solution space (e.g., $H_0^1(\Omega)$), we compute the corresponding right-hand side $f_j$ directly from the equation by differentiation. This produces training pairs ${(f_j, u_j)}$ by computing derivatives rather than solving a PDE numerically for each data point, enabling fast, large-scale data generation consisting of exact solutions. Experiments indicate that models trained on this synthetic data generalize well when tested on data produced by standard solvers. While the idea is simple, we hope this method will expand the potential of neural PDE solvers that do not rely on classical numerical solvers to generate their data.

arxiv情報

著者 Erisa Hasani,Rachel A. Ward
発行日 2025-05-02 17:02:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.NA, math.NA | Generating synthetic data for neural operators はコメントを受け付けていません

On Expressive Power of Looped Transformers: Theoretical Analysis and Enhancement via Timestep Encoding

要約

ループ化変換器は、推論タスクのパラメータ効率、計算能力、汎化性において優位性がある。しかし、関数の近似に関するその表現力は未解明である。本論文では、配列間関数の連続性の係数を定義することで、ループ化変換器の近似率を確立する。これにより、ループ型アーキテクチャ特有の限界が明らかになった。すなわち、解析は、タイムステップエンコーディングを条件として、各ループにスケーリングパラメータを組み込むことを促す。実験により理論結果が検証され、ループの数を増やすことで性能が向上し、タイムステップエンコーディングによってさらに性能が向上することが示された。

要約(オリジナル)

Looped Transformers provide advantages in parameter efficiency, computational capabilities, and generalization for reasoning tasks. However, their expressive power regarding function approximation remains underexplored. In this paper, we establish the approximation rate of Looped Transformers by defining the modulus of continuity for sequence-to-sequence functions. This reveals a limitation specific to the looped architecture. That is, the analysis prompts the incorporation of scaling parameters for each loop, conditioned on timestep encoding. Experiments validate the theoretical results, showing that increasing the number of loops enhances performance, with further gains achieved through the timestep encoding.

arxiv情報

著者 Kevin Xu,Issei Sato
発行日 2025-05-02 17:13:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | On Expressive Power of Looped Transformers: Theoretical Analysis and Enhancement via Timestep Encoding はコメントを受け付けていません

Predicting the Price of Gold in the Financial Markets Using Hybrid Models

要約

最も誤差が少なく、最高の精度を提供できる価格を予測することは、資本市場の活動家や研究者の間で最も困難な問題の1つであり、最も重大な関心事の1つでした。そのため、高い精度で問題を解決し、結果を提供できるモデルは、研究者の間で関心の高いテーマの一つとなっています。このプロジェクトでは、価格、変数、テクニカル分析に関連する指標を推定するためにARIMAなどの時系列予測モデルを使用すると、モデルのための心理的要因を含む関与トレーダーの行動を示しています。これらの変数をすべてステップワイズ回帰にリンクさせることで、変数の予測に影響を与える最適な変数を特定する。最後に、選択した変数を人工ニューラルネットワークの入力として入力する。言い換えれば、この予測プロセス全体を「ARIMA_ステップワイズ回帰_ニューラルネットワーク」モデルと呼び、国際金融市場における金価格の予測を試みたい。このアプローチは、国内外の金融市場で使用される株式、商品、通貨ペア、金融市場指標などの種類を予測するために使用できることが期待される。さらに、この手法と時系列手法の結果の比較も行う。最後に、その結果に基づいて、結果として得られたハイブリッド・モデルは、時系列法、回帰法、ステップワイズ回帰法と比較して最も高い精度を持つことがわかる。

要約(オリジナル)

Predicting the price that has the least error and can provide the best and highest accuracy has been one of the most challenging issues and one of the most critical concerns among capital market activists and researchers. Therefore, a model that can solve problems and provide results with high accuracy is one of the topics of interest among researchers. In this project, using time series prediction models such as ARIMA to estimate the price, variables, and indicators related to technical analysis show the behavior of traders involved in involving psychological factors for the model. By linking all of these variables to stepwise regression, we identify the best variables influencing the prediction of the variable. Finally, we enter the selected variables as inputs to the artificial neural network. In other words, we want to call this whole prediction process the ‘ARIMA_Stepwise Regression_Neural Network’ model and try to predict the price of gold in international financial markets. This approach is expected to be able to be used to predict the types of stocks, commodities, currency pairs, financial market indicators, and other items used in local and international financial markets. Moreover, a comparison between the results of this method and time series methods is also expressed. Finally, based on the results, it can be seen that the resulting hybrid model has the highest accuracy compared to the time series method, regression, and stepwise regression.

arxiv情報

著者 Mohammadhossein Rashidi,Mohammad Modarres
発行日 2025-05-02 17:25:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, econ.EM | Predicting the Price of Gold in the Financial Markets Using Hybrid Models はコメントを受け付けていません

How Effective are Large Time Series Models in Hydrology? A Study on Water Level Forecasting in Everglades

要約

エバーグレーズは、洪水や干ばつの調節、水資源計画、周辺地域の生態系管理において重要な役割を果たしている。しかし、従来の物理学に基づく統計的な水位予測手法は、計算コストが高く、多様な条件や不測の事態への適応性に限界があるなど、しばしば大きな課題に直面している。大規模な時系列モデルにおける最近の進歩は、このような限界に対処する可能性を示しており、最先端のディープラーニングや基礎モデルは、様々な領域における時系列予測において目覚ましい成功を収めている。このような進歩にもかかわらず、エバーグレーズのような重要な環境システムへの適用については、まだ十分に検討されていない。本研究では、エバーグレーズの水位予測に焦点を当てた実世界のアプリケーションに対して、6つのカテゴリーにわたる12のタスク固有モデルと5つの時系列基礎モデルを調査することにより、このギャップを埋める。我々の主要な結果は、基盤モデルであるChronosが他の全てのモデルを大幅に上回る性能を示す一方、残りの基盤モデルは相対的に低い性能を示すことを示している。さらに、タスク固有モデルの性能は、モデルアーキテクチャによって異なる。最後に、モデルの性能がばらつく原因について考察する。

要約(オリジナル)

The Everglades play a crucial role in flood and drought regulation, water resource planning, and ecosystem management in the surrounding regions. However, traditional physics-based and statistical methods for predicting water levels often face significant challenges, including high computational costs and limited adaptability to diverse or unforeseen conditions. Recent advancements in large time series models have demonstrated the potential to address these limitations, with state-of-the-art deep learning and foundation models achieving remarkable success in time series forecasting across various domains. Despite this progress, their application to critical environmental systems, such as the Everglades, remains underexplored. In this study, we fill the gap by investigating twelve task-specific models and five time series foundation models across six categories for a real-world application focused on water level prediction in the Everglades. Our primary results show that the foundation model, Chronos, significantly outperforms all other models while the remaining foundation models exhibit relatively poor performance. Moreover, the performance of task-specific models varies with the model architectures. Lastly, we discuss the possible reasons for the varying performance of models.

arxiv情報

著者 Rahuul Rangaraj,Jimeng Shi,Azam Shirali,Rajendra Paudel,Yanzhao Wu,Giri Narasimhan
発行日 2025-05-02 17:48:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | How Effective are Large Time Series Models in Hydrology? A Study on Water Level Forecasting in Everglades はコメントを受け付けていません

From Foresight to Forethought: VLM-In-the-Loop Policy Steering via Latent Alignment

要約

生成的なロボット・ポリシーは、デモンストレーションから複雑なマルチモーダル行動を学習する上で大きな可能性を示してきたが、展開時にはまだ多様な失敗を示す。ポリシーステアリングは、不完全な生成ポリシーによって提案された低レベルの行動から選択するために外部の検証者を使用することによって、失敗の可能性を減らすためのエレガントなソリューションを提供します。ここで、検証者としてビジョン言語モデル(VLM)を使用し、そのオープンワールド推論機能を活用することを望むかもしれない。しかし、市販のVLMは、VLMが学習したテキストや画像とは基本的に異なる表現であるため、低レベルのロボット行動の結果を理解するのに苦労する。これに対し、我々はFOREWARNを提案する。FOREWARNは、実行時ポリシー・ステアリングのためのオープン・ボキャブラリー検証器として、VLMの潜在能力を引き出す新しいフレームワークである。我々の重要なアイデアは、VLMの負担である行動結果の予測(先見)と評価(先見)を切り離すことである。先見性については、潜在世界モデルを活用して、多様な低レベル行動計画が与えられた将来の潜在状態を想像する。予見については、VLMをこれらの予測された潜在状態に整合させ、本来の表現である自然言語で行動の結果を推論し、提案された計画を効果的にフィルタリングする。我々は、多様なロボット操作タスクにおいて我々のフレームワークを検証し、表現上のギャップを埋め、ロバストで一般化可能なポリシーステアリングを提供する能力を実証する。ビデオはプロジェクトのウェブサイトhttps://yilin-wu98.github.io/forewarn/。

要約(オリジナル)

While generative robot policies have demonstrated significant potential in learning complex, multimodal behaviors from demonstrations, they still exhibit diverse failures at deployment-time. Policy steering offers an elegant solution to reducing the chance of failure by using an external verifier to select from low-level actions proposed by an imperfect generative policy. Here, one might hope to use a Vision Language Model (VLM) as a verifier, leveraging its open-world reasoning capabilities. However, off-the-shelf VLMs struggle to understand the consequences of low-level robot actions as they are represented fundamentally differently than the text and images the VLM was trained on. In response, we propose FOREWARN, a novel framework to unlock the potential of VLMs as open-vocabulary verifiers for runtime policy steering. Our key idea is to decouple the VLM’s burden of predicting action outcomes (foresight) from evaluation (forethought). For foresight, we leverage a latent world model to imagine future latent states given diverse low-level action plans. For forethought, we align the VLM with these predicted latent states to reason about the consequences of actions in its native representation–natural language–and effectively filter proposed plans. We validate our framework across diverse robotic manipulation tasks, demonstrating its ability to bridge representational gaps and provide robust, generalizable policy steering. Videos can be found on the project website: https://yilin-wu98.github.io/forewarn/.

arxiv情報

著者 Yilin Wu,Ran Tian,Gokul Swamy,Andrea Bajcsy
発行日 2025-05-02 17:53:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO | From Foresight to Forethought: VLM-In-the-Loop Policy Steering via Latent Alignment はコメントを受け付けていません

Evaluating Frontier Models for Stealth and Situational Awareness

要約

最近の研究では、フロンティアAIのモデルが、開発者の意図とずれた目的を故意に密かに追い求めるという、陰謀を企てる可能性があることが実証されている。このような行動は検出が非常に困難であり、将来の高度なシステムに存在する場合、深刻な制御不能のリスクをもたらす可能性がある。従って、AI開発者にとって、モデル展開の前に策謀による害を排除することは重要である。本論文では、スキームを成功させるための前提条件であると考えられる、2種類の推論能力を測定するスキーム推論評価一式を提示する:第一に、見落としを推論し回避する(ステルス)能力に関する5つの評価を提案する。第二に、モデルが自分自身、環境、展開(状況認識)について道具的に推論する能力を測定するための11の評価を提示する。これらの評価で成功しなかったモデルは、実際の配備において、スキームによって深刻な被害を引き起こすことはほぼ確実に不可能である。これらの評価で成功しなかったモデルは、実際の配備において、スキームによって深刻な被害を引き起こすことはほぼ確実に不可能である。我々は、現在のフロンティアモデルに対して評価を実行し、どのモデルも状況認識とステルスのいずれについても懸念されるレベルを示さないことを発見した。

要約(オリジナル)

Recent work has demonstrated the plausibility of frontier AI models scheming — knowingly and covertly pursuing an objective misaligned with its developer’s intentions. Such behavior could be very hard to detect, and if present in future advanced systems, could pose severe loss of control risk. It is therefore important for AI developers to rule out harm from scheming prior to model deployment. In this paper, we present a suite of scheming reasoning evaluations measuring two types of reasoning capabilities that we believe are prerequisites for successful scheming: First, we propose five evaluations of ability to reason about and circumvent oversight (stealth). Second, we present eleven evaluations for measuring a model’s ability to instrumentally reason about itself, its environment and its deployment (situational awareness). We demonstrate how these evaluations can be used as part of a scheming inability safety case: a model that does not succeed on these evaluations is almost certainly incapable of causing severe harm via scheming in real deployment. We run our evaluations on current frontier models and find that none of them show concerning levels of either situational awareness or stealth.

arxiv情報

著者 Mary Phuong,Roland S. Zimmermann,Ziyue Wang,David Lindner,Victoria Krakovna,Sarah Cogan,Allan Dafoe,Lewis Ho,Rohin Shah
発行日 2025-05-02 17:57:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | Evaluating Frontier Models for Stealth and Situational Awareness はコメントを受け付けていません

Negative Stepsizes Make Gradient-Descent-Ascent Converge

要約

最小-最大問題の効率的な計算は、最適化、学習、ゲーム、制御における中心的な問題である。最も自然なアルゴリズムは勾配降下法(gradient-descent-ascent:GDA)であろう。しかし、1970年代以降、GDAは単純な問題でさえも収束させることができないというのが従来の常識であった。この失敗が、勾配外、楽観、運動量、アンカリングなどの追加的な構成要素を用いたGDAの修正に関する広範な文献に拍車をかけた。これに対して我々は、ステップサイズを適切に選択するだけで、GDAがそのままの形で収束することを示す。 重要な革新点は、時間変化し、非対称で、周期的に負となる、従来とは異なるステップサイズスケジュール(スリングショットステップサイズスケジュールと呼ばれる)の提案である。我々は、この3つの性質が収束に必要であること、そして、この3つの性質を総合することで、GDAが古典的な反例(例えば、制約のない凸凹問題)でも収束できることを示す。我々の結果は全て、GDAの最後のイテレートに適用される。 アルゴリズムの核となる直感は、負のステップサイズは後方への進展をもたらすが、min変数とmax変数の同期を解除し(GDAの循環問題を克服する)、他の反復における前方への進展が圧倒的に大きくなるスリングショット現象をもたらすということである。その結果、全体の収束が速くなる。幾何学的には、スリングショットダイナミクスは勾配流の非可逆性を利用している。正負のステップが一次的に相殺され、収束につながる新しい方向への二次的な正味の移動が生じ、そうでなければGDAが移動することは不可能である。我々はこれを2次の有限微分アルゴリズムと解釈し、興味深いことに、ディープニューラルネットワーク(例えばGANの訓練)を含む最小-最大問題で経験的に人気のあるアルゴリズムであるコンセンサス最適化を近似的に実装していることを示す。

要約(オリジナル)

Efficient computation of min-max problems is a central question in optimization, learning, games, and controls. Arguably the most natural algorithm is gradient-descent-ascent (GDA). However, since the 1970s, conventional wisdom has argued that GDA fails to converge even on simple problems. This failure spurred an extensive literature on modifying GDA with additional building blocks such as extragradients, optimism, momentum, anchoring, etc. In contrast, we show that GDA converges in its original form by simply using a judicious choice of stepsizes. The key innovation is the proposal of unconventional stepsize schedules (dubbed slingshot stepsize schedules) that are time-varying, asymmetric, and periodically negative. We show that all three properties are necessary for convergence, and that altogether this enables GDA to converge on the classical counterexamples (e.g., unconstrained convex-concave problems). All of our results apply to the last iterate of GDA, as is typically desired in practice. The core algorithmic intuition is that although negative stepsizes make backward progress, they de-synchronize the min and max variables (overcoming the cycling issue of GDA), and lead to a slingshot phenomenon in which the forward progress in the other iterations is overwhelmingly larger. This results in fast overall convergence. Geometrically, the slingshot dynamics leverage the non-reversibility of gradient flow: positive/negative steps cancel to first order, yielding a second-order net movement in a new direction that leads to convergence and is otherwise impossible for GDA to move in. We interpret this as a second-order finite-differencing algorithm and show that, intriguingly, it approximately implements consensus optimization, an empirically popular algorithm for min-max problems involving deep neural networks (e.g., training GANs).

arxiv情報

著者 Henry Shugart,Jason M. Altschuler
発行日 2025-05-02 17:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.DS, cs.LG, math.OC | Negative Stepsizes Make Gradient-Descent-Ascent Converge はコメントを受け付けていません