要約
機械学習における基本的な問題は、次元の呪いを一見回避しながら、ニューラル ネットワークがどのように正確な予測を行うかを理解することです。
考えられる説明は、ニューラル ネットワークの一般的なトレーニング アルゴリズムが次元削減 (特徴学習と呼ばれるプロセス) を暗黙的に実行しているということです。
最近の研究では、特徴学習の効果は、平均勾配外積 (AGOP) と呼ばれる古典的な統計推定量から導き出すことができると仮定されています。
著者らは、(1)AGOPによる特徴ベクトルの再重み付けと、(2)変換された空間での予測関数の学習を交互に繰り返すことで明示的に特徴学習を行うアルゴリズムとして、再帰的特徴マシン(RFM)を提案しました。
この研究では、スパース線形回帰と低ランク行列の回復で生じる過剰パラメータ化された問題のクラスに焦点を当て、RFM がどのように次元削減を実行するかについての最初の理論的保証を開発します。
具体的には、線形モデルに限定された RFM (lin-RFM) が、よく研究された反復再重み付け最小二乗法 (IRLS) アルゴリズムを一般化することを示します。
私たちの結果は、ニューラル ネットワークにおける特徴学習と古典的なスパース回復アルゴリズムの間の関係を明らかにします。
さらに、数百万の欠損エントリを含む行列に合わせてスケーリングする lin-RFM の実装も提供します。
私たちの実装は SVD を使用しないため、標準の IRLS アルゴリズムよりも高速です。
また、スパース線形回帰と低ランク行列の補完に関しては、深層線形ネットワークよりも優れたパフォーマンスを発揮します。
要約(オリジナル)
A fundamental problem in machine learning is to understand how neural networks make accurate predictions, while seemingly bypassing the curse of dimensionality. A possible explanation is that common training algorithms for neural networks implicitly perform dimensionality reduction – a process called feature learning. Recent work posited that the effects of feature learning can be elicited from a classical statistical estimator called the average gradient outer product (AGOP). The authors proposed Recursive Feature Machines (RFMs) as an algorithm that explicitly performs feature learning by alternating between (1) reweighting the feature vectors by the AGOP and (2) learning the prediction function in the transformed space. In this work, we develop the first theoretical guarantees for how RFM performs dimensionality reduction by focusing on the class of overparametrized problems arising in sparse linear regression and low-rank matrix recovery. Specifically, we show that RFM restricted to linear models (lin-RFM) generalizes the well-studied Iteratively Reweighted Least Squares (IRLS) algorithm. Our results shed light on the connection between feature learning in neural networks and classical sparse recovery algorithms. In addition, we provide an implementation of lin-RFM that scales to matrices with millions of missing entries. Our implementation is faster than the standard IRLS algorithm as it is SVD-free. It also outperforms deep linear networks for sparse linear regression and low-rank matrix completion.
arxiv情報
著者 | Adityanarayanan Radhakrishnan,Mikhail Belkin,Dmitriy Drusvyatskiy |
発行日 | 2024-01-09 13:44:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google