Analysis and Detection of Pathological Voice using Glottal Source Features

要約

音声の病状を自動検出することで、客観的な評価と早期の診断介入が可能になります。
この研究では、声門音源の特徴の体系的な分析を提供し、音声病理学の検出におけるその有効性を調査します。
声門音源特徴は、準閉位相 (QCP) 声門逆フィルタリング法で推定された声門流を使用し、ゼロ周波数フィルタリング (ZFF) 手法で計算された近似声門音源信号を使用し、音響音声信号を直接使用して抽出されます。
さらに、病的な音声の声門音源スペクトルの変動を効果的に捕捉するために、QCP および ZFF によって計算された声門音源波形からメル周波数ケプストラム係数 (MFCC) を導出することを提案します。
実験は、アストゥリアス大学プリンシペ大学 (HUPA) データベースとザールブリュッケン音声障害 (SVD) データベースの 2 つのデータベースを使用して実行されました。
特徴の分析により、声門音源には正常な音声と病的な音声を区別する情報が含まれていることが明らかになりました。
病理検出実験は、サポート ベクター マシン (SVM) を使用して実行されました。
検出実験から、研究された声門音源特徴によって達成される性能は、従来の MFCC および知覚線形予測 (PLP) 特徴の性能と同等かそれより優れていることが観察されました。
声門音源特徴を従来の MFCC および PLP 特徴と組み合わせた場合に最高の検出性能が達成されました。これは、特徴の相補的な性質を示しています。

要約(オリジナル)

Automatic detection of voice pathology enables objective assessment and earlier intervention for the diagnosis. This study provides a systematic analysis of glottal source features and investigates their effectiveness in voice pathology detection. Glottal source features are extracted using glottal flows estimated with the quasi-closed phase (QCP) glottal inverse filtering method, using approximate glottal source signals computed with the zero frequency filtering (ZFF) method, and using acoustic voice signals directly. In addition, we propose to derive mel-frequency cepstral coefficients (MFCCs) from the glottal source waveforms computed by QCP and ZFF to effectively capture the variations in glottal source spectra of pathological voice. Experiments were carried out using two databases, the Hospital Universitario Principe de Asturias (HUPA) database and the Saarbrucken Voice Disorders (SVD) database. Analysis of features revealed that the glottal source contains information that discriminates normal and pathological voice. Pathology detection experiments were carried out using support vector machine (SVM). From the detection experiments it was observed that the performance achieved with the studied glottal source features is comparable or better than that of conventional MFCCs and perceptual linear prediction (PLP) features. The best detection performance was achieved when the glottal source features were combined with the conventional MFCCs and PLP features, which indicates the complementary nature of the features.

arxiv情報

著者 Sudarsana Reddy Kadiri,Paavo Alku
発行日 2023-10-17 13:36:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS, eess.SP パーマリンク