FAIR4Cov: Fused Audio Instance and Representation for COVID-19 Detection

要約

タイトル: FAIR4Cov: COVID-19検出のための融合されたオーディオインスタンスと表現

要約:

– 肺疾患の診断決定をサポートするために、体音に基づく分類技術が長期間研究されてきました。
– COVID-19パンデミックの緊急性への対応として、音響入力に基づいてCOVID-19患者を特定するためのモデルの数が増えています。
– この研究では、COVID-19を検出するためのFAIR4Covを提案します。
– FAIR4Covは、波形とスペクトログラム表現で複数の体音から得られる共通の特徴ベクトルを構築することに依存しています。
– FAIR4Covの主要なコンポーネントは、複数の体音とオーディオ表現の関係を確立し、コンパクトな特徴ベクトルに統合するように訓練された自己注目フュージョンユニットです。
– 我々は、波形、スペクトログラム、波形とスペクトログラムの合同表現を使用した異なる体音の組み合わせで実験を行いました。
– 我々の結果は、咳、呼吸、音声の抽出された特徴を自己注意で組み合わせた場合に、受信者動作特性曲線の下の面積(AUC)スコアが0.8658、感度が0.8057、特異度が0.7958であることを示しています。
– このAUCは、スペクトログラムだけで訓練されたモデルのAUCよりも0.0227高く、波形だけで訓練されたモデルのAUCよりも0.0847高いです。
– 結果は、スペクトログラムと波形表現を組み合わせて、抽出された特徴を豊かにすることが有効で、単一表現のモデルを上回ることを示しています。

要約(オリジナル)

Audio-based classification techniques on body sounds have long been studied to support diagnostic decisions, particularly in pulmonary diseases. In response to the urgency of the COVID-19 pandemic, a growing number of models are developed to identify COVID-19 patients based on acoustic input. Most models focus on cough because the dry cough is the best-known symptom of COVID-19. However, other body sounds, such as breath and speech, have also been revealed to correlate with COVID-19 as well. In this work, rather than relying on a specific body sound, we propose Fused Audio Instance and Representation for COVID-19 Detection (FAIR4Cov). It relies on constructing a joint feature vector obtained from a plurality of body sounds in waveform and spectrogram representation. The core component of FAIR4Cov is a self-attention fusion unit that is trained to establish the relation of multiple body sounds and audio representations and integrate it into a compact feature vector. We set up our experiments on different combinations of body sounds using only waveform, spectrogram, and a joint representation of waveform and spectrogram. Our findings show that the use of self-attention to combine extracted features from cough, breath, and speech sounds leads to the best performance with an Area Under the Receiver Operating Characteristic Curve (AUC) score of 0.8658, a sensitivity of 0.8057, and a specificity of 0.7958. This AUC is 0.0227 higher than the one of the models trained on spectrograms only and 0.0847 higher than the one of the models trained on waveforms only. The results demonstrate that the combination of spectrogram with waveform representation helps to enrich the extracted features and outperforms the models with single representation.

arxiv情報

著者 Tuan Truong,Matthias Lenga,Antoine Serrurier,Sadegh Mohammadi
発行日 2023-04-10 08:36:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS パーマリンク