要約
音声障害は、患者の生活の質に大きな影響を与えますが、病的な音声データの希少性と記録源の変動の両方のため、非侵襲的な自動診断には依存していないままです。
この作業では、生の音声信号を直接動作するトランスを活用する新しいアプローチであるMVP(マルチソース音声病理検出)を紹介します。
文の読み取りと持続的な母音記録を組み合わせて、波形連結、中間特徴融合、および意思決定レベルの組み合わせを組み合わせて、3つの融合戦略を探ります。
ドイツ語、ポルトガル語、イタリア語での経験的検証は、トランスを使用した中間特徴融合が両方の記録タイプの補完的な特性を最もよく捉えることを示しています。
私たちのアプローチは、シングルソース方法よりも最大13%のAUC改善を達成しています。
要約(オリジナル)
Voice disorders significantly impact patient quality of life, yet non-invasive automated diagnosis remains under-explored due to both the scarcity of pathological voice data, and the variability in recording sources. This work introduces MVP (Multi-source Voice Pathology detection), a novel approach that leverages transformers operating directly on raw voice signals. We explore three fusion strategies to combine sentence reading and sustained vowel recordings: waveform concatenation, intermediate feature fusion, and decision-level combination. Empirical validation across the German, Portuguese, and Italian languages shows that intermediate feature fusion using transformers best captures the complementary characteristics of both recording types. Our approach achieves up to +13% AUC improvement over single-source methods.
arxiv情報
著者 | Alkis Koudounas,Moreno La Quatra,Gabriele Ciravegna,Marco Fantini,Erika Crosetti,Giovanni Succo,Tania Cerquitelli,Sabato Marco Siniscalchi,Elena Baralis |
発行日 | 2025-05-26 14:38:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google