要約
この論文では、学習アルゴリズムの情報理論的な一般化限界を導出する一般的な方法論を紹介します。
主な技術ツールは、測定の変更と $L_{\psi_p}$ Orlicz 空間におけるヤングの不等式の緩和に基づく確率的無相関補題です。
無相関補題を、確率測度の空間における対称化、カップリング、連鎖などの他の手法と組み合わせて使用すると、期待値と高確率の両方で汎化誤差の新しい上限が得られ、多くの特殊なケースとして回復されます。
相互情報量、条件付き相互情報量、確率的連鎖、および PAC ベイの不等式に基づくものを含む、既存の一般化限界。
さらに、サブガウス過程の予想される最高値のフェルニケ・タラグランドの上限が特殊な場合として現れます。
要約(オリジナル)
This paper presents a general methodology for deriving information-theoretic generalization bounds for learning algorithms. The main technical tool is a probabilistic decorrelation lemma based on a change of measure and a relaxation of Young’s inequality in $L_{\psi_p}$ Orlicz spaces. Using the decorrelation lemma in combination with other techniques, such as symmetrization, couplings, and chaining in the space of probability measures, we obtain new upper bounds on the generalization error, both in expectation and in high probability, and recover as special cases many of the existing generalization bounds, including the ones based on mutual information, conditional mutual information, stochastic chaining, and PAC-Bayes inequalities. In addition, the Fernique-Talagrand upper bound on the expected supremum of a subgaussian process emerges as a special case.
arxiv情報
著者 | Yifeng Chu,Maxim Raginsky |
発行日 | 2023-05-18 15:36:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google