要約
高次元線形回帰は多くの科学分野で重要である。この論文では、化学的または生物学的システムからしばしば得られるような、基礎となる滑らかな潜在過程の離散測定データを考察する。ヌルスペースと正則化との相互作用が回帰係数を形作るので、高次元での解釈は難しい。データのヌルスペースには、$mathbf{Xw}=$mathbf{0}$を満たすすべての係数が含まれるため、非常に異なる係数が同一の予測値をもたらすことができる。我々は、回帰係数と物理工学的知識によって得られる係数を比較し、係数の違いのどの部分がヌルスペースに近いかを理解するための最適化定式化を開発した。このヌルスペース法を合成例とリチウムイオン電池のデータでテストした。ケーススタディは、正則化とz-スコアリングが、事前の物理的知識に対応して選択された場合、解釈可能な回帰結果を導く設計選択であることを示す。そうでなければ、ヌルスペースと正則化の組み合わせは、解釈可能性を妨げ、真の基礎となる線形モデルがある場合に、真の係数に近い回帰係数を得ることを不可能にする。さらに、我々は、フューズド・ラッソのようなヌルスペースに直交する係数を生成しない回帰手法が、解釈可能性を改善できることを実証する。結論として、ヌルスペースの観点から得られた洞察は、高次元データの回帰モデルの構築や、潜在的な基礎となる線形モデルについての推論において、十分な情報に基づいた設計の選択を行うのに役立つ。
要約(オリジナル)
High-dimensional linear regression is important in many scientific fields. This article considers discrete measured data of underlying smooth latent processes, as is often obtained from chemical or biological systems. Interpretation in high dimensions is challenging because the nullspace and its interplay with regularization shapes regression coefficients. The data’s nullspace contains all coefficients that satisfy $\mathbf{Xw}=\mathbf{0}$, thus allowing very different coefficients to yield identical predictions. We developed an optimization formulation to compare regression coefficients and coefficients obtained by physical engineering knowledge to understand which part of the coefficient differences are close to the nullspace. This nullspace method is tested on a synthetic example and lithium-ion battery data. The case studies show that regularization and z-scoring are design choices that, if chosen corresponding to prior physical knowledge, lead to interpretable regression results. Otherwise, the combination of the nullspace and regularization hinders interpretability and can make it impossible to obtain regression coefficients close to the true coefficients when there is a true underlying linear model. Furthermore, we demonstrate that regression methods that do not produce coefficients orthogonal to the nullspace, such as fused lasso, can improve interpretability. In conclusion, the insights gained from the nullspace perspective help to make informed design choices for building regression models on high-dimensional data and reasoning about potential underlying linear models, which are important for system optimization and improving scientific understanding.
arxiv情報
著者 | Joachim Schaeffer,Eric Lenz,William C. Chueh,Martin Z. Bazant,Rolf Findeisen,Richard D. Braatz |
発行日 | 2023-09-01 16:20:04+00:00 |
arxivサイト | arxiv_id(pdf) |