要約
多目的最適化(MOO)は、マルチタスク学習などさまざまな分野で注目を集めています。
最近の研究では、理論的な分析を伴ういくつかの効果的なアルゴリズムが提供されていますが、標準的な $L$-smooth または有界勾配の仮定によって制限されており、通常、リカレント ニューラル ネットワーク (RNN) やトランスフォーマーなどのニューラル ネットワークにとっては不十分です。
この論文では、$\ell$-smooth 損失関数のより一般的で現実的なクラスを研究します。ここで $\ell$ は、勾配ノルムの一般的な非減少関数です。
我々は $\ell$-smooth MOO 問題のための 2 つの新しいシングルループ アルゴリズム、一般化スムーズ多目的勾配降下法 (GSMGrad) とその確率論的バリアントである確率的一般化スムーズ多目的勾配降下法 (SGSMGrad) を開発し、矛盾を近似します。
目標間の最小改善を最大化する回避 (CA) 方向。
両方のアルゴリズムの包括的な収束解析を提供し、保証された $\epsilon$ レベルの平均 CA 距離 (つまり、更新方向と CA 方向の間のギャップ) を備えた $\epsilon$ 精度のパレート静止点に収束することを示します。
) すべての反復にわたって、決定論的設定と確率的設定にはそれぞれ $\mathcal{O}(\epsilon^{-2})$ サンプルと $\mathcal{O}(\epsilon^{-4})$ サンプルが必要です。
。
私たちのアルゴリズムは、より多くのサンプルを使用して、各反復でより厳密な $\epsilon$ レベルの CA 距離を保証することもできます。
さらに、GSMGradと同じパフォーマンス保証を達成しながら、一定レベルの時間と空間のみを使用するGSMGrad-FAと呼ばれるGSMGradの実用的なバリアントを提案します。
私たちの実験は私たちの理論を検証し、提案された方法の有効性を実証します。
要約(オリジナル)
Multi-objective optimization (MOO) is receiving more attention in various fields such as multi-task learning. Recent works provide some effective algorithms with theoretical analysis but they are limited by the standard $L$-smooth or bounded-gradient assumptions, which are typically unsatisfactory for neural networks, such as recurrent neural networks (RNNs) and transformers. In this paper, we study a more general and realistic class of $\ell$-smooth loss functions, where $\ell$ is a general non-decreasing function of gradient norm. We develop two novel single-loop algorithms for $\ell$-smooth MOO problems, Generalized Smooth Multi-objective Gradient descent (GSMGrad) and its stochastic variant, Stochastic Generalized Smooth Multi-objective Gradient descent (SGSMGrad), which approximate the conflict-avoidant (CA) direction that maximizes the minimum improvement among objectives. We provide a comprehensive convergence analysis of both algorithms and show that they converge to an $\epsilon$-accurate Pareto stationary point with a guaranteed $\epsilon$-level average CA distance (i.e., the gap between the updating direction and the CA direction) over all iterations, where totally $\mathcal{O}(\epsilon^{-2})$ and $\mathcal{O}(\epsilon^{-4})$ samples are needed for deterministic and stochastic settings, respectively. Our algorithms can also guarantee a tighter $\epsilon$-level CA distance in each iteration using more samples. Moreover, we propose a practical variant of GSMGrad named GSMGrad-FA using only constant-level time and space, while achieving the same performance guarantee as GSMGrad. Our experiments validate our theory and demonstrate the effectiveness of the proposed methods.
arxiv情報
著者 | Qi Zhang,Peiyao Xiao,Kaiyi Ji,Shaofeng Zou |
発行日 | 2024-07-01 14:43:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google