Minimum discrepancy principle strategy for choosing $k$ in $k$-NN regression

要約

ホールドアウト データを使用せずに $k$-NN 回帰推定器のハイパーパラメーター $k$ を選択する新しいデータ駆動型戦略を提案します。
私たちは、ハイパーパラメータの選択の問題を反復手順 ($k$ 以上) として扱い、早期停止と最小矛盾の原則に基づいて実際に簡単に実装できる戦略を使用することを提案します。
このモデル選択戦略は、一部の平滑関数クラス (たとえば、有界領域のリプシッツ関数クラス) に対してミニマックス最適であることが証明されています。
新しい方法は、ホールドアウト法、5 分割相互検証、AIC 基準などの他のモデル選択戦略と比較して、人工データセットと実世界のデータセットの統計的パフォーマンスを向上させることがよくあります。
この戦略の新規性は、結果として得られる推定量の統計的 (ミニマックス) 最適性を維持しながら、モデル選択手順の計算時間を短縮することにあります。
より正確には、サイズ $n$ のサンプルが与えられた場合、$\left\{ 1, \ldots, n \right\}$ および $\left\{ f^1, \ldots, の中から $k$ を選択する必要がある場合、
f^n \right\}$ は回帰関数の推定量です。最小不一致原則では推定量の一部の計算が必要ですが、これは一般化相互検証、Akaike の AIC 基準、または Lepskii 原則には当てはまりません。

要約(オリジナル)

We present a novel data-driven strategy to choose the hyperparameter $k$ in the $k$-NN regression estimator without using any hold-out data. We treat the problem of choosing the hyperparameter as an iterative procedure (over $k$) and propose using an easily implemented in practice strategy based on the idea of early stopping and the minimum discrepancy principle. This model selection strategy is proven to be minimax-optimal over some smoothness function classes, for instance, the Lipschitz functions class on a bounded domain. The novel method often improves statistical performance on artificial and real-world data sets in comparison to other model selection strategies, such as the Hold-out method, 5-fold cross-validation, and AIC criterion. The novelty of the strategy comes from reducing the computational time of the model selection procedure while preserving the statistical (minimax) optimality of the resulting estimator. More precisely, given a sample of size $n$, if one should choose $k$ among $\left\{ 1, \ldots, n \right\}$, and $\left\{ f^1, \ldots, f^n \right\}$ are the estimators of the regression function, the minimum discrepancy principle requires the calculation of a fraction of the estimators, while this is not the case for the generalized cross-validation, Akaike’s AIC criteria, or Lepskii principle.

arxiv情報

著者 Yaroslav Averyanov,Alain Celisse
発行日 2024-07-17 17:28:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH パーマリンク