Minimum Description Length and Generalization Guarantees for Representation Learning

要約

効率的な統計的教師付き学習アルゴリズムの設計における主要な課題は、利用可能な学習サンプルだけでなく、未知のデータに対しても優れた性能を発揮する表現を見つけることである。表現学習の研究は多くの関心を呼んでいるが、そのような既存のアプローチのほとんどは発見的であり、理論的な汎化保証についてはほとんど知られていない。 本稿では、ラベルや潜在変数(表現)の「最小記述長」(MDL)の観点から、表現学習アルゴリズムの汎化誤差の上限を導出することを可能にする圧縮性の枠組みを確立する。エンコーダの入力と表現間の相互情報(関連文献ではしばしばアルゴリズムの汎化能力を反映すると考えられているが、実際にはそうなっていない)ではなく、我々の新しい境界は、訓練集合とテスト集合の表現(またはラベル)の分布と固定事前分布間の「多文字」相対エントロピーに関係する。特に、これらの新しい境界はエンコーダーの構造を反映しており、決定論的アルゴリズムに対して空虚ではない。情報理論的な我々の圧縮可能性アプローチは、PAC-MDLの境界に関するBlum-Langfordのアプローチを基礎とし、ブロック符号化と非可逆圧縮という2つの重要な要素を導入している。後者により、我々のアプローチは、いわゆる幾何学的圧縮性を特殊なケースとして包含することができる。著者らの知る限り、確立された汎化境界は、情報ボトルネック(IB)型エンコーダと表現学習に対する初めてのものである。最後に、新しいデータ依存事前分布を導入することで、理論的な結果を部分的に利用する。数値シミュレーションにより、IBで用いられる古典的な事前分布よりも、このような事前分布を適切に選択することの優位性を示す。

要約(オリジナル)

A major challenge in designing efficient statistical supervised learning algorithms is finding representations that perform well not only on available training samples but also on unseen data. While the study of representation learning has spurred much interest, most existing such approaches are heuristic; and very little is known about theoretical generalization guarantees. In this paper, we establish a compressibility framework that allows us to derive upper bounds on the generalization error of a representation learning algorithm in terms of the ‘Minimum Description Length’ (MDL) of the labels or the latent variables (representations). Rather than the mutual information between the encoder’s input and the representation, which is often believed to reflect the algorithm’s generalization capability in the related literature but in fact, falls short of doing so, our new bounds involve the ‘multi-letter’ relative entropy between the distribution of the representations (or labels) of the training and test sets and a fixed prior. In particular, these new bounds reflect the structure of the encoder and are not vacuous for deterministic algorithms. Our compressibility approach, which is information-theoretic in nature, builds upon that of Blum-Langford for PAC-MDL bounds and introduces two essential ingredients: block-coding and lossy-compression. The latter allows our approach to subsume the so-called geometrical compressibility as a special case. To the best knowledge of the authors, the established generalization bounds are the first of their kind for Information Bottleneck (IB) type encoders and representation learning. Finally, we partly exploit the theoretical results by introducing a new data-dependent prior. Numerical simulations illustrate the advantages of well-chosen such priors over classical priors used in IB.

arxiv情報

著者 Milad Sefidgaran,Abdellatif Zaidi,Piotr Krasnowski
発行日 2024-02-05 18:12:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.IT, cs.LG, math.IT, stat.ML パーマリンク