Gradient-Based Feature Learning under Structured Data

要約

最近の研究では、単一インデックス モデル、つまり入力データの 1 次元投影に依存する関数の勾配ベースの学習のサンプルの複雑さが、その情報指数によって支配されることが実証されました。
ただし、これらの結果は等方性データのみに関するものであり、実際には入力には暗黙的にアルゴリズムをガイドできる追加構造が含まれることがよくあります。
この研究では、スパイク共分散構造の効果を調査し、いくつかの興味深い現象を明らかにします。
まず、異方性設定では、スパイクがターゲット方向と完全に一致している場合でも、一般的に使用される球面勾配ダイナミクスでは真の方向を回復できない可能性があることを示します。
次に、バッチ正規化を彷彿とさせる適切な重み正規化によってこの問題が軽減されることを示します。
さらに、(スパイクされた)入力共分散とターゲットの間の調整を利用することにより、等方性の場合と比較してサンプルの複雑さが向上します。
特に、適切に大きなスパイクを伴うスパイクモデルの下では、勾配ベースのトレーニングのサンプルの複雑さを情報指数から独立させることができると同時に、回転不変カーネル法の下限を上回るパフォーマンスを実現できます。

要約(オリジナル)

Recent works have demonstrated that the sample complexity of gradient-based learning of single index models, i.e. functions that depend on a 1-dimensional projection of the input data, is governed by their information exponent. However, these results are only concerned with isotropic data, while in practice the input often contains additional structure which can implicitly guide the algorithm. In this work, we investigate the effect of a spiked covariance structure and reveal several interesting phenomena. First, we show that in the anisotropic setting, the commonly used spherical gradient dynamics may fail to recover the true direction, even when the spike is perfectly aligned with the target direction. Next, we show that appropriate weight normalization that is reminiscent of batch normalization can alleviate this issue. Further, by exploiting the alignment between the (spiked) input covariance and the target, we obtain improved sample complexity compared to the isotropic case. In particular, under the spiked model with a suitably large spike, the sample complexity of gradient-based training can be made independent of the information exponent while also outperforming lower bounds for rotationally invariant kernel methods.

arxiv情報

著者 Alireza Mousavi-Hosseini,Denny Wu,Taiji Suzuki,Murat A. Erdogdu
発行日 2023-09-07 16:55:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク