Generalization Analysis of Machine Learning Algorithms via the Worst-Case Data-Generating Probability Measure

要約

この論文では、機械学習アルゴリズムの一般化機能を特徴付けるツールとして、データに対する最悪の場合の確率測定を紹介します。
より具体的には、最悪の場合の確率尺度はギブス確率尺度であり、基準確率尺度に対する相対エントロピー制約の下で予想される損失を最大化するための一意の解です。
予想される損失の感度、経験的リスクの感度、一般化ギャップなどの基本的な一般化メトリクスは、最悪の場合のデータ生成確率尺度を含む閉形式の式を持つことが示されています。
一定係数までの相互情報量とラウタム情報の合計として一般化ギャップを特徴付けるなど、ギブス アルゴリズムの既存の結果が回復されます。
最悪の場合のデータ生成確率測定とギブズ アルゴリズムとの間に新たな類似点が確立されます。
具体的には、ギブズ確率尺度は、機械学習アルゴリズムのモデル空間とデータ空間の基本的な共通性として特定されます。

要約(オリジナル)

In this paper, the worst-case probability measure over the data is introduced as a tool for characterizing the generalization capabilities of machine learning algorithms. More specifically, the worst-case probability measure is a Gibbs probability measure and the unique solution to the maximization of the expected loss under a relative entropy constraint with respect to a reference probability measure. Fundamental generalization metrics, such as the sensitivity of the expected loss, the sensitivity of the empirical risk, and the generalization gap are shown to have closed-form expressions involving the worst-case data-generating probability measure. Existing results for the Gibbs algorithm, such as characterizing the generalization gap as a sum of mutual information and lautum information, up to a constant factor, are recovered. A novel parallel is established between the worst-case data-generating probability measure and the Gibbs algorithm. Specifically, the Gibbs probability measure is identified as a fundamental commonality of the model space and the data space for machine learning algorithms.

arxiv情報

著者 Xinying Zou,Samir M. Perlaza,Iñaki Esnaola,Eitan Altman
発行日 2023-12-19 15:20:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, math.ST, stat.TH パーマリンク