The Adaptive $τ$-Lasso: Its Robustness and Oracle Properties



– 高次元データセットのgross contaminationの影響を受ける応答変数と共変量を解析するためのロバスト$\tau$-regressionの新しい正則化バージョンを紹介する。
– 得られた推定量を頑健な$\tau$-Lassoと呼び、外れ値や高い浮動性のある点に対応し、同時に大きな真の回帰係数に関連するバイアスを減らすために適応的な$\ell_1$-normのペナルティ項を使用する。
– 具体的には、適応的な$\ell_1$-normのペナルティ項は、各回帰係数に重みを割り当てる。
– プレディクタの数$p$が固定された場合、真の回帰ベクトルに対応する回帰ベクトルの変数選択の一貫性と漸近正規性に関するOracleプロパティを持つことを示す。ただし、真の回帰ベクトルのサポートを知っている場合に限る。
– 決定的な有限標本の分断点と影響関数を通じてその頑健性を特徴づける。また、汚染された応答ベクトル/回帰行列と付加的な重尾ノイズが存在する場合において、他の競合する正則化推定量との予測および変数選択の精度を比較するために広範なシミュレーションを実施する。
– シミュレーションによって、$\tau$-Lasso推定器のクラスが汚染されたデータ設定と非汚染データ設定の両方で頑健性と信頼性の高い性能を示し、多くのシナリオにおいて最も良いまたは近い精度を達成することがわかる。
– ただし、特定の推定器が他のものに一様に優位であるわけではないことに留意する必要がある。さらに、シミュレーション実験を通じてその頑健性の性質を検証する。


This paper introduces a new regularized version of the robust $\tau$-regression estimator for analyzing high-dimensional data sets subject to gross contamination in the response variables and covariates. We call the resulting estimator adaptive $\tau$-Lasso that is robust to outliers and high-leverage points and simultaneously employs adaptive $\ell_1$-norm penalty term to reduce the bias associated with large true regression coefficients. More specifically, this adaptive $\ell_1$-norm penalty term assigns a weight to each regression coefficient. For a fixed number of predictors $p$, we show that the adaptive $\tau$-Lasso has the oracle property with respect to variable-selection consistency and asymptotic normality for the regression vector corresponding to the true support, assuming knowledge of the true regression vector support. We then characterize its robustness via the finite-sample breakdown point and the influence function. We carry-out extensive simulations to compare the performance of the adaptive $\tau$-Lasso estimator with that of other competing regularized estimators in terms of prediction and variable selection accuracy in the presence of contamination within the response vector/regression matrix and additive heavy-tailed noise. We observe from our simulations that the class of $\tau$-Lasso estimators exhibits robustness and reliable performance in both contaminated and uncontaminated data settings, achieving the best or close-to-best for many scenarios, except for oracle estimators. However, it is worth noting that no particular estimator uniformly dominates others. We also validate our findings on robustness properties through simulation experiments.


著者 Emadaldin Mozafari-Majd,Visa Koivunen
発行日 2023-04-18 21:34:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.LG, eess.SP, stat.ML パーマリンク