Feature learning in neural networks and kernel machines that recursively learn features

要約

ニューラル ネットワークは、多くの技術的および科学的タスクで目覚ましい成果を上げてきました。
しかし、それらの経験的な成功は、それらの構造と機能に関する私たちの基本的な理解を上回っています。
ニューラル ネットワークの成功を促進するメカニズムを特定することで、ニューラル ネットワークのパフォーマンスを向上させ、シンプルで効果的な代替手段を開発するための原則に基づいたアプローチを提供できます。
この作業では、ニューラル機能学習を平均勾配外積として知られる統計的推定器に接続することにより、完全に接続されたニューラル ネットワークで機能学習を駆動する主要なメカニズムを分離します。
その後、このメカニズムを利用して、機能を学習するカーネル マシンである \textit{Recursive Feature Machines} (RFM) を設計します。
RFM は、(1) 深く完全に接続されたニューラル ネットワークによって学習された機能を正確にキャプチャし、(2) 表形式データのニューラル ネットワークを含む幅広いモデルよりも優れていることを示します。
さらに、RFM が最近観察された深層学習現象 (グロッキング、宝くじ、単純性バイアス、偽の特徴など) にどのように光を当てるかを示します。
メソッドに簡単にアクセスできるようにする Python 実装を提供します [\url{https://github.com/aradha/recursive_feature_machines}]。

要約(オリジナル)

Neural networks have achieved impressive results on many technological and scientific tasks. Yet, their empirical successes have outpaced our fundamental understanding of their structure and function. Identifying mechanisms driving the successes of neural networks can provide principled approaches for improving neural network performance and developing simple and effective alternatives. In this work, we isolate a key mechanism driving feature learning in fully connected neural networks by connecting neural feature learning to a statistical estimator known as average gradient outer product. We subsequently leverage this mechanism to design \textit{Recursive Feature Machines} (RFMs), which are kernel machines that learn features. We show that RFMs (1) accurately capture features learned by deep fully connected neural networks, and (2) outperform a broad spectrum of models including neural networks on tabular data. Furthermore, we show how RFMs shed light on recently observed deep learning phenomena including grokking, lottery tickets, simplicity biases, and spurious features. We provide a Python implementation to make our method easily accessible [\url{https://github.com/aradha/recursive_feature_machines}].

arxiv情報

著者 Adityanarayanan Radhakrishnan,Daniel Beaglehole,Parthe Pandit,Mikhail Belkin
発行日 2023-02-17 17:03:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク