Compression, Generalization and Learning

要約

圧縮関数は、その情報内容を保持しながら、観測セットを縮小サイズのサブセットにスリム化するマップです。
複数のアプリケーションでは、1 つの新しい観測によって圧縮セットが変更されるという条件は、この観測によって追加の情報がもたらされると解釈され、学習理論では、これは誤分類または誤予測に相当します。
この論文では、圧縮の変化の確率 (学習アプリケーションにおける統計的な「リスク」にマッピングされる) を制御し続けることを可能にする新しい理論の基礎を築きます。
適切な条件下では、圧縮セットのカーディナリティは、圧縮の変更確率の一貫した推定量であることが示されます (圧縮セットのサイズに上限はありません)。
さらに、一般に適用可能な優先条件の下で、圧縮の変化の確率を評価するための前例のない厳しい有限サンプル境界が得られます。
すべての結果は、完全に不可知なセットアップで使用できます。つまり、観測値の確率分布に関する先験的な知識を必要としません。
これらの結果は、観察主導の方法論に対する信頼を築くための有効なサポートを提供するだけでなく、ハイパーパラメーター調整のツールとして技術の学習において基本的な役割も果たします。

要約(オリジナル)

A compression function is a map that slims down an observational set into a subset of reduced size, while preserving its informational content. In multiple applications, the condition that one new observation makes the compressed set change is interpreted that this observation brings in extra information and, in learning theory, this corresponds to misclassification, or misprediction. In this paper, we lay the foundations of a new theory that allows one to keep control on the probability of change of compression (which maps into the statistical ‘risk’ in learning applications). Under suitable conditions, the cardinality of the compressed set is shown to be a consistent estimator of the probability of change of compression (without any upper limit on the size of the compressed set); moreover, unprecedentedly tight finite-sample bounds to evaluate the probability of change of compression are obtained under a generally applicable condition of preference. All results are usable in a fully agnostic setup, i.e., without requiring any a priori knowledge on the probability distribution of the observations. Not only these results offer a valid support to develop trust in observation-driven methodologies, they also play a fundamental role in learning techniques as a tool for hyper-parameter tuning.

arxiv情報

著者 Marco C. Campi,Simone Garatti
発行日 2024-01-08 11:20:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.ST, stat.ML, stat.TH パーマリンク