要約
分布シフトは、データの特性を系統的に変化させ、真実から遠ざける可能性があるため、現代の統計学習において重大な懸念事項である。我々は、観測値の一部が外れ値となるHuber汚染モデルとは対照的に、全てのデータ点がわずかな摂動を受ける可能性のあるWasserstein分布シフトに焦点を当てる。我々は、独立した摂動を超えるシフトを定式化して研究し、観測毎の摂動が調整され得る共同分布シフトを探求する。位置推定、線形回帰、ノンパラメトリック密度推定など、いくつかの重要な統計的問題を解析する。線形回帰における平均推定と予測誤差の二乗損失の下で、我々は正確な最小リスク、最小有利摂動を求め、標本平均推定量と最小二乗推定量がそれぞれ最適であることを示す。これは独立シフトと共同シフトの両方で成り立つが、最小有利摂動と最小リスクは異なる。その他の問題については、ほぼ最適な推定量と正確な有限標本境界を提供する。また、分布シフトの下でのminimaxリスクを境界づけるためのいくつかのツールを紹介する。例えば、位置族に対する平滑化テクニックや、事前分布の最小有利系列、連続性の係数、Le Camの方法、Fanoの方法、Assouadの方法などの古典的ツールの一般化などである。
要約(オリジナル)
Distribution shifts are a serious concern in modern statistical learning as they can systematically change the properties of the data away from the truth. We focus on Wasserstein distribution shifts, where every data point may undergo a slight perturbation, as opposed to the Huber contamination model where a fraction of observations are outliers. We formulate and study shifts beyond independent perturbations, exploring Joint Distribution Shifts, where the per-observation perturbations can be coordinated. We analyze several important statistical problems, including location estimation, linear regression, and non-parametric density estimation. Under a squared loss for mean estimation and prediction error in linear regression, we find the exact minimax risk, a least favorable perturbation, and show that the sample mean and least squares estimators are respectively optimal. This holds for both independent and joint shifts, but the least favorable perturbations and minimax risks differ. For other problems, we provide nearly optimal estimators and precise finite-sample bounds. We also introduce several tools for bounding the minimax risk under distribution shift, such as a smoothing technique for location families, and generalizations of classical tools including least favorable sequences of priors, the modulus of continuity, Le Cam’s, Fano’s, and Assouad’s methods.
arxiv情報
著者 | Patrick Chao,Edgar Dobriban |
発行日 | 2023-08-03 16:19:40+00:00 |
arxivサイト | arxiv_id(pdf) |