要約
制限付きボルツマンマシン(RBM)は、豊かな基礎構造を持つデータから学習するように設計された生成モデルである。本研究では、教師RBMによって生成された例から生徒RBMが学習するという教師-生徒の設定を、学習効率に対する単位事前分布の効果に焦点を当てて探求する。連続変数(ガウス変数)と二値変数の間を補間するパラメトリックな事前分布を考える。このアプローチは、教師RBMと生徒RBMの両方について、可視ユニット、隠れユニット、重みの様々な可能な選択をモデル化する。 ベイズ最適領域とミスマッチ領域の両方における事後分布の位相図を分析することにより、汎化による学習に必要な臨界データセットサイズを定義する三重点の存在を示す。この臨界サイズは、教師、ひいてはデータの特性に強く影響されるが、生徒のRBMの特性には影響されない。それにもかかわらず、生徒の事前分布を慎重に選択することで、機械が効果的に汎化する、いわゆる信号検索領域を拡大し、学習を促進することができる。
要約(オリジナル)
Restricted Boltzmann Machines (RBMs) are generative models designed to learn from data with a rich underlying structure. In this work, we explore a teacher-student setting where a student RBM learns from examples generated by a teacher RBM, with a focus on the effect of the unit priors on learning efficiency. We consider a parametric class of priors that interpolate between continuous (Gaussian) and binary variables. This approach models various possible choices of visible units, hidden units, and weights for both the teacher and student RBMs. By analyzing the phase diagram of the posterior distribution in both the Bayes optimal and mismatched regimes, we demonstrate the existence of a triple point that defines the critical dataset size necessary for learning through generalization. The critical size is strongly influenced by the properties of the teacher, and thus the data, but is unaffected by the properties of the student RBM. Nevertheless, a prudent choice of student priors can facilitate training by expanding the so-called signal retrieval region, where the machine generalizes effectively.
arxiv情報
著者 | Gianluca Manzan,Daniele Tantari |
発行日 | 2024-12-03 17:52:38+00:00 |
arxivサイト | arxiv_id(pdf) |