要約
パーキンソン病 (PD) は世界で 2 番目に蔓延している神経変性疾患であり、初期段階の言語障害を呈することがよくあります。
人工知能 (AI)、特にディープラーニング (DL) の最近の進歩により、音声データの分析を通じて PD 診断が大幅に強化されました。
それにもかかわらず、主にプライバシーと倫理上の懸念により、公的にアクセス可能な音声ベースの PD データセットの入手が限られているため、研究の進歩は制限されています。
このレビューでは、2020 年から 2024 年 3 月までに発表された 33 件の科学研究のパフォーマンス、利用可能なリソース、および関連する課題に焦点を当て、音声ベースの PD 分類に対する最新の DL ベースの AI アプローチを取り上げます。これらの DL アプローチは、エンドツーエンド (E2E) に分類されます。
) 学習、転移学習 (TL)、および深層音響特徴 (DAF) の抽出。
E2E アプローチの中では畳み込みニューラル ネットワーク (CNN) が普及していますが、トランスフォーマーの人気も高まっています。
E2E アプローチは、特に Transformer の場合、限られたデータや計算リソースなどの課題に直面しています。
TL は、より堅牢な PD 診断と言語間でのより優れた汎用性を提供することで、これらの問題に対処します。
DAF 抽出は、他の DL アプローチとより伝統的な機械学習 (ML) 手法の両方に対する深い特徴の特定の効果を調べることにより、結果の説明可能性と解釈可能性を向上させることを目的としています。
ただし、E2E および TL アプローチと比較するとパフォーマンスが劣ることがよくあります。
このレビューでは、偏見、説明可能性、プライバシーに関連する未解決の問題についても議論し、将来の研究の必要性を強調しています。
要約(オリジナル)
Parkinson’s disease (PD), the second most prevalent neurodegenerative disorder worldwide, frequently presents with early-stage speech impairments. Recent advancements in Artificial Intelligence (AI), particularly deep learning (DL), have significantly enhanced PD diagnosis through the analysis of speech data. Nevertheless, the progress of research is restricted by the limited availability of publicly accessible speech-based PD datasets, primarily due to privacy and ethical concerns. This review covers the latest DL-based AI approaches for speech-based PD classification, focusing on performance, available resources and associated challenges of 33 scientific works published between 2020 and March 2024. These DL approaches are categorized into end-to-end (E2E) learning, transfer learning (TL) and deep acoustic features (DAF) extraction. Among E2E approaches, Convolutional Neural Networks (CNNs) are prevalent, though Transformers are increasingly popular. E2E approaches face challenges such as limited data and computational resources, especially with Transformers. TL addresses these issues by providing more robust PD diagnosis and better generalizability across languages. DAF extraction aims to improve the explainability and interpretability of results by examining the specific effects of deep features on both other DL approaches and more traditional machine learning (ML) methods. However, it often underperforms compared to E2E and TL approaches. This review also discusses unresolved issues related to bias, explainability and privacy, highlighting the need for future research.
arxiv情報
著者 | Lisanne van Gelderen,Cristian Tejedor-García |
発行日 | 2024-07-25 07:58:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google