Task structure and nonlinearity jointly determine learned representational geometry

要約

学習されたニューラル表現の有用性は、そのジオメトリが下流タスクのパフォーマンスをどの程度サポートしているかによって決まります。
このジオメトリは、入力の構造、ターゲット出力の構造、およびネットワークのアーキテクチャによって異なります。
1 つの隠れ層を持つネットワークの学習ダイナミクスを研究することで、ネットワークの活性化関数が表現幾何学に予想外に強い影響を与えることがわかりました。Tanh ネットワークはターゲット出力の構造を反映する表現を学習する傾向があるのに対し、ReLU ネットワークはより多くの情報を保持します。
生の入力の構造について。
この違いは、タスク入力のジオメトリとタスク ラベルのジオメトリ間の整合度を調整した、パラメータ化されたタスクの広範なクラスにわたって一貫して観察されます。
私たちは重み空間での学習ダイナミクスを分析し、Tanh 非線形性と ReLU 非線形性を備えたネットワーク間の違いが、ReLU の非対称漸近挙動からどのように生じるかを示します。これにより、特徴ニューロンは入力空間の異なる領域に特化するようになります。
対照的に、Tanh ネットワークの特徴ニューロンはタスク ラベル構造を継承する傾向があります。
その結果、ターゲット出力が低次元の場合、Tanh ネットワークは ReLU 非線形性で得られるものよりもより解きほぐされたニューラル表現を生成します。
私たちの発見は、ニューラル ネットワークにおける入出力幾何学、非線形性、学習された表現の間の相互作用に光を当てています。

要約(オリジナル)

The utility of a learned neural representation depends on how well its geometry supports performance in downstream tasks. This geometry depends on the structure of the inputs, the structure of the target outputs, and the architecture of the network. By studying the learning dynamics of networks with one hidden layer, we discovered that the network’s activation function has an unexpectedly strong impact on the representational geometry: Tanh networks tend to learn representations that reflect the structure of the target outputs, while ReLU networks retain more information about the structure of the raw inputs. This difference is consistently observed across a broad class of parameterized tasks in which we modulated the degree of alignment between the geometry of the task inputs and that of the task labels. We analyzed the learning dynamics in weight space and show how the differences between the networks with Tanh and ReLU nonlinearities arise from the asymmetric asymptotic behavior of ReLU, which leads feature neurons to specialize for different regions of input space. By contrast, feature neurons in Tanh networks tend to inherit the task label structure. Consequently, when the target outputs are low dimensional, Tanh networks generate neural representations that are more disentangled than those obtained with a ReLU nonlinearity. Our findings shed light on the interplay between input-output geometry, nonlinearity, and learned representations in neural networks.

arxiv情報

著者 Matteo Alleman,Jack W Lindsey,Stefano Fusi
発行日 2024-01-24 16:14:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク