Sample Compression Unleashed: New Generalization Bounds for Real Valued Losses

要約

サンプル圧縮理論は、トレーニング データセットのサブセットと、通常はバイナリ シーケンスとして定義される (短い) メッセージ文字列を使用して完全に定義できる予測子の一般化保証を提供します。
以前の研究では、ゼロ 1 損失の一般化限界が提供されていましたが、これは深層学習アプローチに適用される場合に特に制限的でした。
この論文では、実数値の無制限の損失に適用される新しいサンプル圧縮限界を導き出すための一般的なフレームワークを紹介します。
任意の機械学習予測子のトレーニング方法を変換してサンプル圧縮された予測子を生成する Pick-To-Learn (P2L) メタ アルゴリズムを使用して、ランダム フォレストで評価することで境界の厳しさとその汎用性を経験的に実証します。
複数の種類のニューラル ネットワーク。

要約(オリジナル)

The sample compression theory provides generalization guarantees for predictors that can be fully defined using a subset of the training dataset and a (short) message string, generally defined as a binary sequence. Previous works provided generalization bounds for the zero-one loss, which is restrictive notably when applied to deep learning approaches. In this paper, we present a general framework for deriving new sample compression bounds that hold for real-valued unbounded losses. Using the Pick-To-Learn (P2L) meta-algorithm, which transforms the training method of any machine-learning predictor to yield sample-compressed predictors, we empirically demonstrate the tightness of the bounds and their versatility by evaluating them on random forests and multiple types of neural networks.

arxiv情報

著者 Mathieu Bazinet,Valentina Zantedeschi,Pascal Germain
発行日 2024-10-22 17:16:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク