Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature

要約

目的:公開されているSaarbr \ ‘ucken Voiceデータベース(SVD)を使用した音声病理検出の新しい方法論と、一般的に使用される音響操作機能と2つの新しいものを組み合わせた堅牢な機能セットを紹介します。
方法:6つの機械学習(ML)アルゴリズムを評価します – ベクターマシン、K-ナイアスベイズ、ナイーブベイズ、意思決定ツリー、ランダムフォレスト、およびアダボースト – 実現可能なハイパーパラメーターと20480の異なる機能サブセットのグリッド検索を使用します。
トップ1000分類モデル – 各MLアルゴリズムの特徴サブセットの組み合わせは、繰り返し層分析された交差検証で検証されます。
クラスの不均衡に対処するために、K-Means Smoteを適用してトレーニングデータを増やします。
結果:私たちのアプローチは、女性、男性、および複合結果の85.61%、84.69%、および85.22%の非加重平均リコール(UAR)をそれぞれ達成します。
不均衡なデータの高度に偏ったメトリックであるため、精度を意図的に省略します。
結論:我々の研究は、提案された方法論と機能エンジニアリングに従って、母音 /a: /の持続的な発話である最も単純なボーカルタスクに適用されるMLモデルを使用して、さまざまな音声病理の検出に可能性があることを示しています。
方法論を容易に使用し、主張をサポートするために、DOI 10.5281/Zenodo.13771573で公開されているGitHubリポジトリを提供します。
最後に、読みやすさ、再現性、および私たちのアプローチの正当化を強化するための改革チェックリストを提供します

要約(オリジナル)

Purpose: We introduce a novel methodology for voice pathology detection using the publicly available Saarbr\’ucken Voice Database (SVD) and a robust feature set combining commonly used acoustic handcrafted features with two novel ones: pitch difference (relative variation in fundamental frequency) and NaN feature (failed fundamental frequency estimation). Methods: We evaluate six machine learning (ML) algorithms — support vector machine, k-nearest neighbors, naive Bayes, decision tree, random forest, and AdaBoost — using grid search for feasible hyperparameters and 20480 different feature subsets. Top 1000 classification models — feature subset combinations for each ML algorithm are validated with repeated stratified cross-validation. To address class imbalance, we apply K-Means SMOTE to augment the training data. Results: Our approach achieves 85.61%, 84.69% and 85.22% unweighted average recall (UAR) for females, males and combined results respectively. We intentionally omit accuracy as it is a highly biased metric for imbalanced data. Conclusion: Our study demonstrates that by following the proposed methodology and feature engineering, there is a potential in detection of various voice pathologies using ML models applied to the simplest vocal task, a sustained utterance of the vowel /a:/. To enable easier use of our methodology and to support our claims, we provide a publicly available GitHub repository with DOI 10.5281/zenodo.13771573. Finally, we provide a REFORMS checklist to enhance readability, reproducibility and justification of our approach

arxiv情報

著者 Jan Vrba,Jakub Steinbach,Tomáš Jirsa,Laura Verde,Roberta De Fazio,Yuwen Zeng,Kei Ichiji,Lukáš Hájek,Zuzana Sedláková,Zuzana Urbániová,Martin Chovanec,Jan Mareš,Noriyasu Homma
発行日 2025-03-14 13:47:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS パーマリンク