要約
この論文では、ここで新たに導入する「可変サイズ圧縮率」フレームワークのレンズを通して、一般化誤差の新しいデータ依存の上限を確立します。
このフレームワークでは、アルゴリズムの汎化誤差は、入力データの可変サイズの「圧縮率」に関連付けられます。
これにより、未知の分布ではなく、手元にある特定の入力データの経験的尺度に依存する境界が得られることが示されています。
私たちが確立する新しい一般化境界は、テール境界、期待値のテール境界、および期待値内の境界です。
さらに、私たちのフレームワークでは、入力データと出力仮説確率変数の任意の関数に対する一般限界を導出することもできることが示されています。
特に、これらの一般的な境界は、特殊なケースとして回復されるいくつかの既存の PAC ベイおよびデータ依存の固有の次元ベースの境界を包含し、改善する可能性があることが示されており、したがって、私たちのアプローチの統一的な特徴が明らかになります。
たとえば、新しいデータ依存の固有次元ベースの境界が確立され、一般化誤差を最適化軌道に結び付け、プロセスのレート歪み次元やプロセスの分析情報次元とのさまざまな興味深い関連性が明らかになります。
、およびメトリック平均ディメンション。
要約(オリジナル)
In this paper, we establish novel data-dependent upper bounds on the generalization error through the lens of a ‘variable-size compressibility’ framework that we introduce newly here. In this framework, the generalization error of an algorithm is linked to a variable-size ‘compression rate’ of its input data. This is shown to yield bounds that depend on the empirical measure of the given input data at hand, rather than its unknown distribution. Our new generalization bounds that we establish are tail bounds, tail bounds on the expectation, and in-expectations bounds. Moreover, it is shown that our framework also allows to derive general bounds on any function of the input data and output hypothesis random variables. In particular, these general bounds are shown to subsume and possibly improve over several existing PAC-Bayes and data-dependent intrinsic dimension-based bounds that are recovered as special cases, thus unveiling a unifying character of our approach. For instance, a new data-dependent intrinsic dimension-based bound is established, which connects the generalization error to the optimization trajectories and reveals various interesting connections with the rate-distortion dimension of a process, the R\’enyi information dimension of a process, and the metric mean dimension.
arxiv情報
著者 | Milad Sefidgaran,Abdellatif Zaidi |
発行日 | 2024-06-11 17:12:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google