On Regression in Extreme Regions

要約

統計的学習問題は、$(X,Y)$ の独立したコピーに基づいて予測関数 $\hat{f}$ を構築し、$Y$ が最小 (
二乗)エラー。
さまざまなアプリケーションを動機として、ここでは極端な (つまり、非常に大きな) 観測値 $X$ の場合に特別な注意が払われます。
まれであるため、そのような観測値の (経験的) 誤差への寄与は無視でき、その結果、極端な領域では経験的リスク最小化ツールの予測パフォーマンスが非常に低くなる可能性があります。
この論文では、極端な回帰のための一般的なフレームワークを開発します。
ペア $(X,Y)$ に関する適切な規則的変動の仮定の下で、リスクの漸近概念を調整して、極端な領域での予測パフォーマンスを適切に要約できることを示します。
また、最大の観測値の一部のみに基づいて、この「極端なリスク」の経験的かつ非漸近的なバージョンを最小化すると、優れた一般化能力が得られることも証明されています。
さらに、提案されたアプローチの関連性の強力な経験的証拠を提供する数値結果が表示されます。

要約(オリジナル)

The statistical learning problem consists in building a predictive function $\hat{f}$ based on independent copies of $(X,Y)$ so that $Y$ is approximated by $\hat{f}(X)$ with minimum (squared) error. Motivated by various applications, special attention is paid here to the case of extreme (i.e. very large) observations $X$. Because of their rarity, the contributions of such observations to the (empirical) error is negligible, and the predictive performance of empirical risk minimizers can be consequently very poor in extreme regions. In this paper, we develop a general framework for regression on extremes. Under appropriate regular variation assumptions regarding the pair $(X,Y)$, we show that an asymptotic notion of risk can be tailored to summarize appropriately predictive performance in extreme regions. It is also proved that minimization of an empirical and nonasymptotic version of this ‘extreme risk’, based on a fraction of the largest observations solely, yields good generalization capacity. In addition, numerical results providing strong empirical evidence of the relevance of the approach proposed are displayed.

arxiv情報

著者 Nathan Huet,Stephan Clémençon,Anne Sabourin
発行日 2024-04-10 14:52:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH パーマリンク