The Choice of Normalization Influences Shrinkage in Regularized Regression

要約

正規化されたモデルはデータ内の特徴のスケールに敏感であることが多いため、モデルをフィッティングする前に特徴を正規化 (中心化およびスケール化) することが標準的な手法となっています。
ただし、特徴を正規化するにはさまざまな方法があり、その選択が結果のモデルに劇的な影響を与える可能性があります。
それにもかかわらず、これまでのところ、このテーマに関する研究は行われていません。
この論文では、なげなわ回帰、リッジ回帰、および弾性ネット回帰のコンテキストで正規化を研究することで、この知識のギャップを埋めることから始めます。
正規特徴とバイナリ特徴に焦点を当て、バイナリ特徴のクラスバランスが回帰係数に直接影響し、この効果が使用される正規化と正則化法の組み合わせに依存することを示します。
この効果は、なげなわの場合は分散、リッジ回帰の場合は標準偏差を使用してバイナリ特徴をスケーリングすることで軽減できることを示しますが、これには分散の増加という犠牲が伴います。
弾性ネットについては、特徴ではなくペナルティの重みをスケーリングすることで同じ効果が得られることを示します。
最後に、バイナリ特徴と通常特徴の混合、および相互作用にも取り組み、これらの場合に特徴を正規化する方法に関する初期結果をいくつか提供します。

要約(オリジナル)

Regularized models are often sensitive to the scales of the features in the data and it has therefore become standard practice to normalize (center and scale) the features before fitting the model. But there are many different ways to normalize the features and the choice may have dramatic effects on the resulting model. In spite of this, there has so far been no research on this topic. In this paper, we begin to bridge this knowledge gap by studying normalization in the context of lasso, ridge, and elastic net regression. We focus on normal and binary features and show that the class balances of binary features directly influences the regression coefficients and that this effect depends on the combination of normalization and regularization methods used. We demonstrate that this effect can be mitigated by scaling binary features with their variance in the case of the lasso and standard deviation in the case of ridge regression, but that this comes at the cost of increased variance. For the elastic net, we show that scaling the penalty weights, rather than the features, can achieve the same effect. Finally, we also tackle mixes of binary and normal features as well as interactions and provide some initial results on how to normalize features in these cases.

arxiv情報

著者 Johan Larsson,Jonas Wallin
発行日 2025-01-21 18:42:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68T09, cs.LG, G.3, stat.ME, stat.ML パーマリンク