Evaluating the Impact of Pulse Oximetry Bias in Machine Learning under Counterfactual Thinking

要約

医療におけるアルゴリズムのバイアスは、既存のデータのバイアスを反映しています。
しかし、不公平をもたらす要因は必ずしもわかっているわけではありません。
医療機器は大量のデータを収集しますが、エラーが発生しやすいです。
たとえば、パルスオキシメーターは肌の色が濃い人の動脈血酸素飽和度を過大評価し、結果を悪化させます。
機械学習 (ML) モデルにおけるこのバイアスの影響は依然として不明です。
この研究は、下流の ML における医療機器のバイアスの影響を定量化するという技術的課題に取り組んでいます。
私たちの実験では、SaO2 (血液ガス) を使用したパルスオキシメトリーのバイアスのない「完璧な世界」と、SpO2 (パルスオキシメトリー) を使用したバイアスのある測定の「現実の世界」を比較します。
この反事実的な設計の下では、酸素飽和度の測定方法を除いて、2 つのモデルが同一のデータ、特徴、設定でトレーニングされます。SaO2 を使用するモデルは「対照」であり、SpO2 を使用するモデルは「治療」です。
血液ガスオキシメトリーにリンクされたデータセットは、幅広い臨床特徴および結果と一致する、163,396 件のほぼ同時の SpO2 – SaO2 ペア測定値を含む、適切なテストベッドでした。
私たちは、院内死亡率、次の 24 時間の呼吸器 SOFA スコア、および SOFA スコアの 2 ポイント増加という 3 つの分類タスクを研究しました。
SpO2 の代わりに SaO2 を使用したモデルは、一般に優れたパフォーマンスを示しました。
パルスオキシメトリーによる O2 の過大評価が 3% を超える患者では、死亡率予測再現率が 0.63 から 0.59 に有意に減少しました (P < 0.001)。 これは、偏ったパルスオキシメトリー測定値が臨床医に患者の酸素レベルの誤った安心感を与える臨床プロセスを反映しています。 同様の劣化が ML モデルでも発生し、パルスオキシメトリーのバイアスにより、有害な結果を予測する際の偽陰性が増加しました。

要約(オリジナル)

Algorithmic bias in healthcare mirrors existing data biases. However, the factors driving unfairness are not always known. Medical devices capture significant amounts of data but are prone to errors; for instance, pulse oximeters overestimate the arterial oxygen saturation of darker-skinned individuals, leading to worse outcomes. The impact of this bias in machine learning (ML) models remains unclear. This study addresses the technical challenges of quantifying the impact of medical device bias in downstream ML. Our experiments compare a ‘perfect world’, without pulse oximetry bias, using SaO2 (blood-gas), to the ‘actual world’, with biased measurements, using SpO2 (pulse oximetry). Under this counterfactual design, two models are trained with identical data, features, and settings, except for the method of measuring oxygen saturation: models using SaO2 are a ‘control’ and models using SpO2 a ‘treatment’. The blood-gas oximetry linked dataset was a suitable test-bed, containing 163,396 nearly-simultaneous SpO2 – SaO2 paired measurements, aligned with a wide array of clinical features and outcomes. We studied three classification tasks: in-hospital mortality, respiratory SOFA score in the next 24 hours, and SOFA score increase by two points. Models using SaO2 instead of SpO2 generally showed better performance. Patients with overestimation of O2 by pulse oximetry of > 3% had significant decreases in mortality prediction recall, from 0.63 to 0.59, P < 0.001. This mirrors clinical processes where biased pulse oximetry readings provide clinicians with false reassurance of patients' oxygen levels. A similar degradation happened in ML models, with pulse oximetry biases leading to more false negatives in predicting adverse outcomes.

arxiv情報

著者 Inês Martins,João Matos,Tiago Gonçalves,Leo A. Celi,A. Ian Wong,Jaime S. Cardoso
発行日 2024-08-08 12:03:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク