Contrasting Deep Learning Models for Direct Respiratory Insufficiency Detection Versus Blood Oxygen Saturation Estimation

要約

一般的な音声分類タスク用に設計され、自動音声分析を通じて呼吸不全 (RI) 検出と血中酸素飽和度 (SpO2) の推定と分類用に洗練された、最先端の深層学習アーキテクチャの高い有効性を対比します。
最近、音声分析を通じて COVID 患者の RI を検出するための複数の深層学習アーキテクチャが提案され、95% 以上の精度と 0.93 以上の F1 スコアを達成しました。
RI は、SpO2 レベルの低下に関連する状態であり、一般に SpO2 閾値 <92% として定義されます。 SpO2 は RI の重要な決定要因として機能しますが、医師の診断は通常、複数の要因に依存します。 これらには、呼吸数、心拍数、SpO2 レベルなどが含まれます。 ここでは、RI 検出のための事前学習済みオーディオ ニューラル ネットワーク (CNN6、CNN10、および CNN14) とマスク オートエンコーダー (Audio-MAE) を研究します。これらのモデルは、以前の結果を上回る、ほぼ完璧な精度を達成します。 それでも、SpO2 レベルを推定する回帰タスクでは、モデルは指の酸素濃度計で許容される臨床範囲の 3.5% を超える二乗平均平方根誤差値を達成しました。 さらに、ピアソン相関係数は 0.3 を超えることができません。 深層学習モデルは回帰よりも分類の方が優れたパフォーマンスを発揮するため、SpO2 回帰を、しきい値 92% を使用して SpO2 しきい値のバイナリ分類問題に変換します。 ただし、このタスクでは依然として 0.65 未満の F1 スコアが得られます。 したがって、音声分析は患者のRI状態についての貴重な洞察を提供しますが、実際のSpO2レベルについての正確な情報は提供しません。これは、音声および音声バイオマーカーが現在の技術下で医療診断に役立つ場合とそうでない場合がある領域の分離を示しています。

要約(オリジナル)

We contrast high effectiveness of state of the art deep learning architectures designed for general audio classification tasks, refined for respiratory insufficiency (RI) detection and blood oxygen saturation (SpO2) estimation and classification through automated audio analysis. Recently, multiple deep learning architectures have been proposed to detect RI in COVID patients through audio analysis, achieving accuracy above 95% and F1-score above 0.93. RI is a condition associated with low SpO2 levels, commonly defined as the threshold SpO2 <92%. While SpO2 serves as a crucial determinant of RI, a medical doctor's diagnosis typically relies on multiple factors. These include respiratory frequency, heart rate, SpO2 levels, among others. Here we study pretrained audio neural networks (CNN6, CNN10 and CNN14) and the Masked Autoencoder (Audio-MAE) for RI detection, where these models achieve near perfect accuracy, surpassing previous results. Yet, for the regression task of estimating SpO2 levels, the models achieve root mean square error values exceeding the accepted clinical range of 3.5% for finger oximeters. Additionally, Pearson correlation coefficients fail to surpass 0.3. As deep learning models perform better in classification than regression, we transform SpO2-regression into a SpO2-threshold binary classification problem, with a threshold of 92%. However, this task still yields an F1-score below 0.65. Thus, audio analysis offers valuable insights into a patient's RI status, but does not provide accurate information about actual SpO2 levels, indicating a separation of domains in which voice and speech biomarkers may and may not be useful in medical diagnostics under current technologies.

arxiv情報

著者 Marcelo Matheus Gauy,Natalia Hitomi Koza,Ricardo Mikio Morita,Gabriel Rocha Stanzione,Arnaldo Candido Junior,Larissa Cristina Berti,Anna Sara Shafferman Levin,Ester Cerdeira Sabino,Flaviane Romani Fernandes Svartman,Marcelo Finger
発行日 2024-07-30 17:26:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク