On Learning Gaussian Multi-index Models with Gradient Flow

要約

高次元ガウスデータの多指数回帰問題における勾配流を研究します。
マルチインデックス関数は、未知の低ランク線形射影と任意の未知の低次元リンク関数の組み合わせで構成されます。
したがって、これらはニューラル ネットワークの特徴学習のための自然なテンプレートを構成します。
2 タイムスケール アルゴリズムを検討します。これにより、低次元リンク関数は、低ランク投影をパラメータ化する部分空間よりも無限に高速にノンパラメトリック モデルを使用して学習されます。
部分空間相関行列上に生じる行列半群構造を適切に利用することにより、結果として得られるグラスマン集団勾配流動ダイナミクスの大域的収束を確立し、それに関連する「サドルからサドル」ダイナミクスの定量的記述を提供します。
特に、各サドルに関連付けられたタイムスケールは、ターゲット リンク関数の適切なエルミート分解の観点から明示的に特徴付けることができます。
これらの肯定的な結果とは対照的に、リンク関数が既知で固定されている関連する \emph{planted} 問題には、実際には大まかな最適化ランドスケープがあり、勾配流れダイナミクスが高確率でトラップされる可能性があることも示します。

要約(オリジナル)

We study gradient flow on the multi-index regression problem for high-dimensional Gaussian data. Multi-index functions consist of a composition of an unknown low-rank linear projection and an arbitrary unknown, low-dimensional link function. As such, they constitute a natural template for feature learning in neural networks. We consider a two-timescale algorithm, whereby the low-dimensional link function is learnt with a non-parametric model infinitely faster than the subspace parametrizing the low-rank projection. By appropriately exploiting the matrix semigroup structure arising over the subspace correlation matrices, we establish global convergence of the resulting Grassmannian population gradient flow dynamics, and provide a quantitative description of its associated `saddle-to-saddle’ dynamics. Notably, the timescales associated with each saddle can be explicitly characterized in terms of an appropriate Hermite decomposition of the target link function. In contrast with these positive results, we also show that the related \emph{planted} problem, where the link function is known and fixed, in fact has a rough optimization landscape, in which gradient flow dynamics might get trapped with high probability.

arxiv情報

著者 Alberto Bietti,Joan Bruna,Loucas Pillaud-Vivien
発行日 2023-11-02 17:33:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク