A Mean-Field Analysis of Neural Gradient Descent-Ascent: Applications to Functional Conditional Moment Equations

要約

私たちは、無限次元関数クラスに対して定義されたミニマックス最適化問題を研究します。
特に、関数を過パラメータ化された 2 層ニューラル ネットワークのクラスに限定し、(i) 勾配降下上昇アルゴリズムの収束と (ii) ニューラル ネットワークの表現学習を研究します。
最初のステップとして、敵対的推定による条件付き期待によって定義される関数方程式の推定から生じるミニマックス最適化問題を検討します。ここで、目的関数は関数空間では二次関数です。
この問題については、最適化ダイナミクスの連続時間と無限幅の制限を考慮することにより、平均場領域での収束を確立します。
このレジームの下では、勾配降下上昇は、ニューラル ネットワーク パラメーターの空間上で定義された確率測度の空間上のワッサーシュタイン勾配フローに対応します。
Wasserstein 勾配流が $\mathcal{O}(T^{-1} + \alpha^{-1} ) $ 線形未満の速度でミニマックス目的の静止点にグローバルに収束することを証明し、さらに解を求めます
ミニマックス目的の正則化子が強く凸である場合の関数方程式への変換。
ここで、$T$ は時間を表し、$\alpha$ はニューラル ネットワークのスケーリング パラメーターです。
表現学習に関して、私たちの結果は、ニューラル ネットワークによって誘導された特徴表現が、用語で測定された $\mathcal{O}(\alpha^{-1})$ の大きさだけ初期のものから逸脱することが許容されることを示しています。
ワッサーシュタイン距離の。
最後に、一般的な結果を政策評価、ノンパラメトリック操作変数回帰、資産価格設定などの具体的な例に適用します。

要約(オリジナル)

We study minimax optimization problems defined over infinite-dimensional function classes. In particular, we restrict the functions to the class of overparameterized two-layer neural networks and study (i) the convergence of the gradient descent-ascent algorithm and (ii) the representation learning of the neural network. As an initial step, we consider the minimax optimization problem stemming from estimating a functional equation defined by conditional expectations via adversarial estimation, where the objective function is quadratic in the functional space. For this problem, we establish convergence under the mean-field regime by considering the continuous-time and infinite-width limit of the optimization dynamics. Under this regime, gradient descent-ascent corresponds to a Wasserstein gradient flow over the space of probability measures defined over the space of neural network parameters. We prove that the Wasserstein gradient flow converges globally to a stationary point of the minimax objective at a $\mathcal{O}(T^{-1} + \alpha^{-1} ) $ sublinear rate, and additionally finds the solution to the functional equation when the regularizer of the minimax objective is strongly convex. Here $T$ denotes the time and $\alpha$ is a scaling parameter of the neural network. In terms of representation learning, our results show that the feature representation induced by the neural networks is allowed to deviate from the initial one by the magnitude of $\mathcal{O}(\alpha^{-1})$, measured in terms of the Wasserstein distance. Finally, we apply our general results to concrete examples including policy evaluation, nonparametric instrumental variable regression, and asset pricing.

arxiv情報

著者 Yuchen Zhu,Yufeng Zhang,Zhaoran Wang,Zhuoran Yang,Xiaohong Chen
発行日 2024-04-18 16:46:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク