要約
この論文では、ここで新しく導入した「可変サイズの圧縮率」フレームワークのレンズを通して、汎化誤差の新しいデータ依存の上限を確立します。
このフレームワークでは、アルゴリズムの一般化エラーは、入力データの可変サイズの「圧縮率」に関連付けられています。
これは、未知の分布ではなく、与えられた入力データの経験的尺度に依存する境界を生成することが示されています。
私たちが確立する新しい一般化の境界は、テール バウンド、期待値のテール バウンド、期待内のバウンドです。
さらに、私たちのフレームワークにより、入力データの任意の関数と出力仮説確率変数の一般的な境界を導き出すこともできることが示されています。
特に、これらの一般的な境界は、特殊なケースとして回復されるいくつかの既存の PAC-Bayes およびデータ依存の固有の次元ベースの境界を包含し、おそらく改善することが示されているため、私たちのアプローチの統一的な特徴が明らかになります。
たとえば、新しいデータ依存の固有の次元ベースの境界が確立されます。これは、一般化エラーを最適化軌道に接続し、プロセスのレート歪み次元、プロセスの R\’enyi 情報次元、およびメトリック平均次元とのさまざまな興味深い接続を明らかにします。
.
要約(オリジナル)
In this paper, we establish novel data-dependent upper bounds on the generalization error through the lens of a ‘variable-size compressibility’ framework that we introduce newly here. In this framework, the generalization error of an algorithm is linked to a variable-size ‘compression rate’ of its input data. This is shown to yield bounds that depend on the empirical measure of the given input data at hand, rather than its unknown distribution. Our new generalization bounds that we establish are tail bounds, tail bounds on the expectation, and in-expectations bounds. Moreover, it is shown that our framework also allows to derive general bounds on any function of the input data and output hypothesis random variables. In particular, these general bounds are shown to subsume and possibly improve over several existing PAC-Bayes and data-dependent intrinsic dimension-based bounds that are recovered as special cases, thus unveiling a unifying character of our approach. For instance, a new data-dependent intrinsic dimension based bounds is established, which connects the generalization error to the optimization trajectories and reveals various interesting connections with rate-distortion dimension of process, R\’enyi information dimension of process, and metric mean dimension.
arxiv情報
著者 | Milad Sefidgaran,Abdellatif Zaidi |
発行日 | 2023-03-09 16:17:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google