The Adaptive $τ$-Lasso: Robustness and Oracle Properties

要約

この論文では、応答変数と共変量 (説明変数) の重大な汚染の影響を受ける高次元データセットを分析するための、ロバストな $\tau$ 回帰推定量の新しい正規化バージョンを紹介します。
結果として得られる推定量は、適応 $\tau$-Lasso と呼ばれ、外れ値や高てこ比ポイントに対して堅牢です。
また、適応型 $\ell_1$-norm ペナルティ項も組み込まれており、これにより関連する変数の選択が可能になり、大きな真の回帰係数に関連するバイアスが軽減されます。
より具体的には、この適応 $\ell_1$-norm ペナルティ項は、各回帰係数に重みを割り当てます。
固定数の予測子 $p$ に対して、適応 $\tau$-Lasso が神託の性質を持ち、変数選択の一貫性と漸近正規性の両方を保証することを示します。
漸近正規性は、真の回帰ベクトル サポートの知識を前提として、真のサポートに対応する回帰ベクトルのエントリにのみ適用されます。
有限サンプルの内訳点と影響関数によってその堅牢性を特徴付けます。
広範なシミュレーションを実行し、 $\tau$-Lasso 推定器のクラスが汚染されたデータ設定と汚染されていないデータ設定の両方で堅牢性と信頼性の高いパフォーマンスを示すことを観察しました。
また、シミュレーション実験を通じてロバスト性特性に関する理論的発見を検証します。
異常値や高いてこ比点に直面しても、適応型 $\tau$-Lasso 推定器と $\tau$-Lasso 推定器は、他の競合する推定器と比較して、予測と変数選択の精度の点で最高のパフォーマンス、または最高に近いパフォーマンスを達成します。
この研究で考慮されたすべてのシナリオの正規化推定量。
したがって、適応型 $\tau$-Lasso 推定器と $\tau$-Lasso 推定器は、特に高次元の設定で、データが外れ値やてこ比の高い点によって汚染されている場合に、さまざまな疎線形回帰問題に効果的に使用できます。

要約(オリジナル)

This paper introduces a new regularized version of the robust $\tau$-regression estimator for analyzing high-dimensional datasets subject to gross contamination in the response variables and covariates (explanatory variables). The resulting estimator, termed adaptive $\tau$-Lasso, is robust to outliers and high-leverage points. It also incorporates an adaptive $\ell_1$-norm penalty term, which enables the selection of relevant variables and reduces the bias associated with large true regression coefficients. More specifically, this adaptive $\ell_1$-norm penalty term assigns a weight to each regression coefficient. For a fixed number of predictors $p$, we show that the adaptive $\tau$-Lasso has the oracle property, ensuring both variable-selection consistency and asymptotic normality. Asymptotic normality applies only to the entries of the regression vector corresponding to the true support, assuming knowledge of the true regression vector support. We characterize its robustness via the finite-sample breakdown point and the influence function. We carry out extensive simulations and observe that the class of $\tau$-Lasso estimators exhibits robustness and reliable performance in both contaminated and uncontaminated data settings. We also validate our theoretical findings on robustness properties through simulation experiments. In the face of outliers and high-leverage points, the adaptive $\tau$-Lasso and $\tau$-Lasso estimators achieve the best performance or close-to-best performance in terms of prediction and variable selection accuracy compared to other competing regularized estimators for all scenarios considered in this study. Therefore, the adaptive $\tau$-Lasso and $\tau$-Lasso estimators can be effectively employed for a variety of sparse linear regression problems, particularly in high-dimensional settings and when the data is contaminated by outliers and high-leverage points.

arxiv情報

著者 Emadaldin Mozafari-Majd,Visa Koivunen
発行日 2023-10-19 16:18:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP, stat.ML パーマリンク