Occam learning

要約

タイトル:Occam学習
要約:

– 隠れ層の分布が固定された教師なし学習用の確率ニューラルネットワークモデルについて説明する。
– このアーキテクチャを持つ学習機械には望ましいプロパティがいくつかある。
– たとえば、モデルは単純で解釈可能なものとして選択でき、過剰なパラメータを持つ必要はなく、熱力学的な意味でトレーニングが効率的であると主張している。
– 隠れ層の単位がバイナリ変数の場合、これらのモデルには特徴の観点で自然な解釈がある。
– 特徴を持たない状態は、特徴に関する最大の無知の状態に対応し、最初の特徴の学習はデータの非ガウス統計的な特性に依存することを示唆している。
– 隠れ変数の分布は、最大関連性の原則に従って選択する必要があると考えられる。
– 機能空間の中立的な先行組織をエンコードするモデルとして、階層的特徴モデル(HFM)を提案する。
– 学習機械の内部表現が本当にトレーニングに使用されたデータと独立していること、そして有限の特徴のみでいくつかのデータセットを記述することができることをテストするために、広範囲な数値実験を行う。

要約(オリジナル)

We discuss probabilistic neural network models for unsupervised learning where the distribution of the hidden layer is fixed. We argue that learning machines with this architecture enjoy a number of desirable properties. For example, the model can be chosen as a simple and interpretable one, it does not need to be over-parametrised and training is argued to be efficient in a thermodynamic sense. When hidden units are binary variables, these models have a natural interpretation in terms of features. We show that the featureless state corresponds to a state of maximal ignorance about the features and that learning the first feature depends on non-Gaussian statistical properties of the data. We suggest that the distribution of hidden variables should be chosen according to the principle of maximal relevance. We introduce the Hierarchical Feature Model (HFM) as an example of a model that satisfies this principle, and that encodes a neutral a priori organisation of the feature space. We present extensive numerical experiments in order i) to test that the internal representation of learning machines can indeed be independent of the data with which they are trained and ii) that only a finite number of features are needed to describe a number of datasets.

arxiv情報

著者 Rongrong Xie,Matteo Marsili
発行日 2023-04-27 14:24:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cond-mat.dis-nn, cs.LG パーマリンク