Generalization Bounds: Perspectives from Information Theory and PAC-Bayes

要約

理論的な機械学習における基本的な問題は一般化です。
過去数十年にわたり、PAC ベイジアン アプローチは、機械学習アルゴリズムの一般化機能に対処し、新しいアルゴリズムを設計するための柔軟なフレームワークとして確立されてきました。
最近では、ディープ ニューラル ネットワークを含むさまざまな学習アルゴリズムに適用できる可能性があるため、関心が高まっています。
並行して、一般化に関する情報理論的な見方が発展し、一般化とさまざまな情報尺度との関係が確立されました。
このフレームワークは PAC-ベイジアン アプローチと密接に関連しており、多くの結果が両方の要素で独立して発見されています。
このモノグラフでは、この強いつながりを強調し、PAC ベイジアンと情報理論の一般化限界の統一された扱いを示します。
2 つの視点に共通する手法と結果を紹介し、異なるアプローチと解釈につ​​いて説明します。
特に、この分野の多くの証明がモジュール構造を共有しており、それを通じて根底にあるアイデアを直感的に理解できることを示します。
私たちは、条件付き相互情報量 (CMI) フレームワークに特に注意を払っています。
学習アルゴリズムの情報の複雑さの分析的研究。
そして提案された手法の深層学習への応用。
このモノグラフは、情報理論の一般化限界とその PAC ベイズとの関係についての包括的な紹介を提供することを目的としており、最新の開発にアクセスできる基盤として機能します。
一般化と理論的機械学習に興味を持つ研究者を広く対象としています。

要約(オリジナル)

A fundamental question in theoretical machine learning is generalization. Over the past decades, the PAC-Bayesian approach has been established as a flexible framework to address the generalization capabilities of machine learning algorithms, and design new ones. Recently, it has garnered increased interest due to its potential applicability for a variety of learning algorithms, including deep neural networks. In parallel, an information-theoretic view of generalization has developed, wherein the relation between generalization and various information measures has been established. This framework is intimately connected to the PAC-Bayesian approach, and a number of results have been independently discovered in both strands. In this monograph, we highlight this strong connection and present a unified treatment of PAC-Bayesian and information-theoretic generalization bounds. We present techniques and results that the two perspectives have in common, and discuss the approaches and interpretations that differ. In particular, we demonstrate how many proofs in the area share a modular structure, through which the underlying ideas can be intuited. We pay special attention to the conditional mutual information (CMI) framework; analytical studies of the information complexity of learning algorithms; and the application of the proposed methods to deep learning. This monograph is intended to provide a comprehensive introduction to information-theoretic generalization bounds and their connection to PAC-Bayes, serving as a foundation from which the most recent developments are accessible. It is aimed broadly towards researchers with an interest in generalization and theoretical machine learning.

arxiv情報

著者 Fredrik Hellström,Giuseppe Durisi,Benjamin Guedj,Maxim Raginsky
発行日 2024-03-27 17:07:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IT, cs.LG, math.IT, math.ST, stat.ML, stat.TH パーマリンク