Architect Your Landscape Approach (AYLA) for Optimizations in Deep Learning

要約

確率的勾配降下(SGD)およびAdamなどのそのバリアントは、損失関数勾配に基づいて固定または適応学習率を使用してモデルパラメーターを調整し、深い学習最適化の基礎となっています。
ただし、これらの方法は、非凸の高次元設定における適応性と効率のバランスをとる上で、しばしば課題に直面しています。
このペーパーでは、損失関数変換を通じてトレーニングのダイナミクスを強化する新しい最適化手法であるAylaを紹介します。
調整可能なパワーロー変換を適用することにより、Aylaは重要なポイントを保持しながら、損失値をスケーリングして勾配感度を増幅し、収束を加速させます。
さらに、変換された損失に適応する動的な(効果的な)学習率を提案し、最適化効率を向上させます。
合成非凸多項式、非凸曲線フィッティングデータセット、および桁分類(MNIST)の最小値を見つけることに関する経験的テストは、AYLAが収束速度と安定性でSGDとADAMを上回ることを示しています。
このアプローチは、最適化の結果を改善するために損失の状況を再定義し、深いニューラルネットワークに有望な進歩を提供し、任意の最適化方法に適用し、潜在的にITのパフォーマンスを改善することができます。

要約(オリジナル)

Stochastic Gradient Descent (SGD) and its variants, such as ADAM, are foundational to deep learning optimization, adjusting model parameters using fixed or adaptive learning rates based on loss function gradients. However, these methods often face challenges in balancing adaptability and efficiency in non-convex, high-dimensional settings. This paper introduces AYLA, a novel optimization technique that enhances training dynamics through loss function transformations. By applying a tunable power-law transformation, AYLA preserves critical points while scaling loss values to amplify gradient sensitivity, accelerating convergence. We further propose a dynamic (effective) learning rate that adapts to the transformed loss, improving optimization efficiency. Empirical tests on finding minimum of a synthetic non-convex polynomial, a non-convex curve-fitting dataset, and digit classification (MNIST) demonstrate that AYLA surpasses SGD and ADAM in convergence speed and stability. This approach redefines the loss landscape for better optimization outcomes, offering a promising advancement for deep neural networks and can be applied to any optimization method and potentially improve the performance of it.

arxiv情報

著者 Ben Keslaki
発行日 2025-04-02 16:31:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク