Interpretation of High-Dimensional Linear Regression: Effects of Nullspace and Regularization Demonstrated on Battery Data

要約

高次元の線形回帰は、多くの科学分野で重要です。
この記事では、化学系または生物学的システムから得られることが多い、根底にある滑らかな潜在プロセスの離散測定データを検討します。
ヌル空間とその正則化との相互作用が回帰係数を形成するため、高次元での解釈は困難です。
データのヌル空間には、$\mathbf{Xw}=\mathbf{0}$ を満たすすべての係数が含まれるため、非常に異なる係数が同一の予測を生成することが可能になります。
回帰係数と物理工学の知識から得られる係数を比較し、係数差のどの部分が零空間に近いかを理解するための最適化定式化を開発しました。
このヌルスペース法は、合成例とリチウムイオン電池のデータでテストされています。
ケーススタディは、正則化と Z スコアリングが設計上の選択肢であり、事前の物理知識に対応して選択された場合、解釈可能な回帰結果につながることを示しています。
そうしないと、ヌル空間と正則化の組み合わせにより解釈可能性が妨げられ、基礎となる真の線形モデルがある場合に真の係数に近い回帰係数を取得できなくなる可能性があります。
さらに、融合なげなわなど、ヌル空間に直交する係数を生成しない回帰手法により解釈可能性が向上することを示します。
結論として、ヌル空間の観点から得られた洞察は、高次元データに基づいて回帰モデルを構築し、潜在的な基礎となる線形モデルについて推論するための、情報に基づいた設計の選択を行うのに役立ちます。これらは、システムの最適化と科学的理解を向上させるために重要です。

要約(オリジナル)

High-dimensional linear regression is important in many scientific fields. This article considers discrete measured data of underlying smooth latent processes, as is often obtained from chemical or biological systems. Interpretation in high dimensions is challenging because the nullspace and its interplay with regularization shapes regression coefficients. The data’s nullspace contains all coefficients that satisfy $\mathbf{Xw}=\mathbf{0}$, thus allowing very different coefficients to yield identical predictions. We developed an optimization formulation to compare regression coefficients and coefficients obtained by physical engineering knowledge to understand which part of the coefficient differences are close to the nullspace. This nullspace method is tested on a synthetic example and lithium-ion battery data. The case studies show that regularization and z-scoring are design choices that, if chosen corresponding to prior physical knowledge, lead to interpretable regression results. Otherwise, the combination of the nullspace and regularization hinders interpretability and can make it impossible to obtain regression coefficients close to the true coefficients when there is a true underlying linear model. Furthermore, we demonstrate that regression methods that do not produce coefficients orthogonal to the nullspace, such as fused lasso, can improve interpretability. In conclusion, the insights gained from the nullspace perspective help to make informed design choices for building regression models on high-dimensional data and reasoning about potential underlying linear models, which are important for system optimization and improving scientific understanding.

arxiv情報

著者 Joachim Schaeffer,Eric Lenz,William C. Chueh,Martin Z. Bazant,Rolf Findeisen,Richard D. Braatz
発行日 2023-09-06 17:35:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62J07, 62P99, cs.LG, I.2.6, stat.AP, stat.ME, stat.ML パーマリンク