Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks

要約

特徴学習、つまりデータの意味のある表現の抽出は、勾配降下法でトレーニングされたニューラル ネットワークの実際的な成功の典型ですが、それがどのように、そしてなぜ起こるかを説明するのが難しいことで知られています。
最近の理論的研究では、勾配ベースの手法を使用して単一のタスクで最適化された浅いニューラル ネットワークが意味のある特徴を学習できることが示されており、特徴の学習が無視できるニューラル タンジェント カーネルやランダム特徴領域を超えて理解が拡張されています。
しかし実際には、ニューラル ネットワークは、さまざまな損失関数を使用して同時に多数のタスクでトレーニングされることがますます多くなり、これらの事前の分析はそのような設定に一般化されません。
マルチタスク学習設定では、さまざまな研究により、単純な線形モデルによる効果的な特徴学習が示されています。
しかし、おそらく実際に最も一般的な学習パラダイムである、{\em 非線形} モデルによるマルチタスク学習は、ほとんどが謎のままです。
この研究では、非線形モデルを使用したマルチタスク設定で特徴学習が行われることを証明する最初の結果を紹介します。
タスクが周囲の $d\gg r$ 次元入力空間内の $r$ 方向のみに依存するラベルを持つ二値分類問題である場合、2 層 ReLU ニューラル ネットワーク上で単純な勾配ベースのマルチタスク学習アルゴリズムを実行することを示します。
真実の $r$ 方向を学習します。
特に、$r$ グラウンドトゥルース座標に関する下流のタスクは、周囲の次元 $d$ に依存しないサンプルとニューロンの複雑さを持つ線形分類器を学習することで解決できますが、ランダム特徴モデルは $d$ の指数関数的な複雑さを必要とします。
そのような保証。

要約(オリジナル)

Feature learning, i.e. extracting meaningful representations of data, is quintessential to the practical success of neural networks trained with gradient descent, yet it is notoriously difficult to explain how and why it occurs. Recent theoretical studies have shown that shallow neural networks optimized on a single task with gradient-based methods can learn meaningful features, extending our understanding beyond the neural tangent kernel or random feature regime in which negligible feature learning occurs. But in practice, neural networks are increasingly often trained on {\em many} tasks simultaneously with differing loss functions, and these prior analyses do not generalize to such settings. In the multi-task learning setting, a variety of studies have shown effective feature learning by simple linear models. However, multi-task learning via {\em nonlinear} models, arguably the most common learning paradigm in practice, remains largely mysterious. In this work, we present the first results proving feature learning occurs in a multi-task setting with a nonlinear model. We show that when the tasks are binary classification problems with labels depending on only $r$ directions within the ambient $d\gg r$-dimensional input space, executing a simple gradient-based multitask learning algorithm on a two-layer ReLU neural network learns the ground-truth $r$ directions. In particular, any downstream task on the $r$ ground-truth coordinates can be solved by learning a linear classifier with sample and neuron complexity independent of the ambient dimension $d$, while a random feature model requires exponential complexity in $d$ for such a guarantee.

arxiv情報

著者 Liam Collins,Hamed Hassani,Mahdi Soltanolkotabi,Aryan Mokhtari,Sanjay Shakkottai
発行日 2023-07-13 16:39:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク