A Systematic Bias of Machine Learning Regression Models and Its Correction: an Application to Imaging-based Brain Age Prediction

要約

継続的な結果を求める機械学習モデルでは、特に平均値から大きく逸脱した値について、体系的に偏った予測が得られることがよくあります。
具体的には、大きな値の結果の予測には負のバイアスがかかる (実際の値を過小評価する) 傾向があり、小さな値の結果の予測は正のバイアスがかかる (実際の値を過大評価する) 傾向があります。
この線形中心傾向の歪んだバイアスを「機械学習回帰の系統的バイアス」と呼びます。
この論文では、まずこの体系的な予測バイアスがさまざまな機械学習回帰モデルにわたって持続することを実証し、次にその理論的基礎を掘り下げます。
この問題に対処するために、このバイアスを修正し、計算効率の高い実装アルゴリズムを開発するように設計された一般的な制約付き最適化アプローチを提案します。
シミュレーション結果は、私たちの補正方法が予測結果からバイアスを効果的に除去することを示しています。
提案されたアプローチを神経画像データを使用した脳年齢の予測に適用します。
競合する機械学習回帰モデルと比較して、私たちの方法は、神経画像ベースの脳年齢計算における「機械学習回帰の系統的偏り」という長年の問題に効果的に対処し、脳年齢の不偏な予測をもたらします。

要約(オリジナル)

Machine learning models for continuous outcomes often yield systematically biased predictions, particularly for values that largely deviate from the mean. Specifically, predictions for large-valued outcomes tend to be negatively biased (underestimating actual values), while those for small-valued outcomes are positively biased (overestimating actual values). We refer to this linear central tendency warped bias as the ‘systematic bias of machine learning regression’. In this paper, we first demonstrate that this systematic prediction bias persists across various machine learning regression models, and then delve into its theoretical underpinnings. To address this issue, we propose a general constrained optimization approach designed to correct this bias and develop computationally efficient implementation algorithms. Simulation results indicate that our correction method effectively eliminates the bias from the predicted outcomes. We apply the proposed approach to the prediction of brain age using neuroimaging data. In comparison to competing machine learning regression models, our method effectively addresses the longstanding issue of ‘systematic bias of machine learning regression’ in neuroimaging-based brain age calculation, yielding unbiased predictions of brain age.

arxiv情報

著者 Hwiyoung Lee,Shuo Chen
発行日 2024-09-04 15:08:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML パーマリンク