Statistical signatures of abstraction in deep neural networks

要約

私たちは、ベンチマーク データセットでトレーニングされた Deep Belief Network (DBN) で抽象表現がどのように現れるかを研究します。
私たちの分析は、アンダーサンプリング体制の「原始スープ」から始まる、情報処理の初期段階における学習原理を対象としています。
データがより深い層で処理されるにつれて、特徴が検出および削除され、ますます多くの「コンテキストに依存しない」情報がより深い層に転送されます。
この表現が、最大関連性の原理によって決定される普遍的なモデルである階層特徴モデル (HFM) に近づいていることを示します。
関連性はデータのモデルの不確実性を定量化するため、「意味」、つまり構文情報がモデルによってまだ捉えられていないデータの部分であることを示唆しています。
私たちの分析は、浅い層がペアワイズ イジング モデルによって適切に記述され、一般的な低次の特徴の観点からデータを表現できることを示しています。
また、脳の場合と同様に、可塑性が深さとともに増加することも示します。
これらの発見は、DBN が最大関連性の原則と一致するデータから特徴の階層を抽出できることを示唆しています。

要約(オリジナル)

We study how abstract representations emerge in a Deep Belief Network (DBN) trained on benchmark datasets. Our analysis targets the principles of learning in the early stages of information processing, starting from the ‘primordial soup’ of the under-sampling regime. As the data is processed by deeper and deeper layers, features are detected and removed, transferring more and more ‘context-invariant’ information to deeper layers. We show that the representation approaches an universal model — the Hierarchical Feature Model (HFM) — determined by the principle of maximal relevance. Relevance quantifies the uncertainty on the model of the data, thus suggesting that ‘meaning’ — i.e. syntactic information — is that part of the data which is not yet captured by a model. Our analysis shows that shallow layers are well described by pairwise Ising models, which provide a representation of the data in terms of generic, low order features. We also show that plasticity increases with depth, in a similar way as it does in the brain. These findings suggest that DBNs are capable of extracting a hierarchy of features from the data which is consistent with the principle of maximal relevance.

arxiv情報

著者 Carlo Orientale Caputo,Matteo Marsili
発行日 2024-10-01 12:39:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG, physics.data-an, stat.ML パーマリンク