Detecting Throat Cancer from Speech Signals using Machine Learning: A Scoping Literature Review

要約

はじめに: 咽頭がんの症例は世界中で増加しています。
後の段階では生存率が大幅に低下するため、早期発見が重要です。
人工知能 (AI) と機械学習 (ML) には、患者の音声から咽頭がんを検出できる可能性があり、早期診断が促進され、過大な医療システムの負担が軽減されます。
しかし、音声から咽頭がんを検出するための AI と ML の使用を検討した包括的なレビューはありません。
このレビューは、これらのテクノロジーがどのように機能するかを評価し、将来の研究で対処する必要がある問題を特定することで、このギャップを埋めることを目的としています。
材料と方法: Scopus、Web of Science、PubMed の 3 つのデータベースにわたって文献レビューの範囲指定を実施しました。
機械学習を使用して音声を分類し、データに咽頭がん患者を含めることを指定した記事を含めました。
記事は、バイナリ分類とマルチクラス分類のどちらを実行したかに基づいて分類されました。
結果: 27 件の論文が包含基準に適合し、12 件がバイナリ分類を実行し、13 件がマルチクラス分類を実行し、2 件がバイナリ分類とマルチクラス分類の両方を実行したことがわかりました。
使用された最も一般的な分類方法はニューラル ネットワークで、最も頻繁に抽出された特徴はメル スペクトログラムでした。
また、前処理方法と分類器のパフォーマンスについても文書化しました。
各記事を TRIPOD-AI チェックリストと比較したところ、コードを共有している記事は 1 つだけ、オープンアクセス データを使用している記事は 3 つだけであり、オープン サイエンスが大幅に欠如していることがわかりました。
結論: オープンソース コードは、この分野の外部検証とさらなる開発に不可欠です。
私たちのレビューによると、音声から咽頭がんを検出する場合、単一の方法や特定の機能が一貫して他の方法よりも優れているということはありません。
今後の研究は、方法論の標準化と結果の再現性の向上に焦点を当てる必要があります。

要約(オリジナル)

Introduction: Cases of throat cancer are rising worldwide. With survival decreasing significantly at later stages, early detection is vital. Artificial intelligence (AI) and machine learning (ML) have the potential to detect throat cancer from patient speech, facilitating earlier diagnosis and reducing the burden on overstretched healthcare systems. However, no comprehensive review has explored the use of AI and ML for detecting throat cancer from speech. This review aims to fill this gap by evaluating how these technologies perform and identifying issues that need to be addressed in future research. Materials and Methods: We conducted a scoping literature review across three databases: Scopus,Web of Science, and PubMed. We included articles that classified speech using machine learning and specified the inclusion of throat cancer patients in their data. Articles were categorized based on whether they performed binary or multi-class classification. Results: We found 27 articles fitting our inclusion criteria, 12 performing binary classification, 13 performing multi-class classification, and two that do both binary and multiclass classification. The most common classification method used was neural networks, and the most frequently extracted feature was mel-spectrograms. We also documented pre-processing methods and classifier performance. We compared each article against the TRIPOD-AI checklist, which showed a significant lack of open science, with only one article sharing code and only three using open-access data. Conclusion: Open-source code is essential for external validation and further development in this field. Our review indicates that no single method or specific feature consistently outperforms others in detecting throat cancer from speech. Future research should focus on standardizing methodologies and improving the reproducibility of results.

arxiv情報

著者 Mary Paterson,James Moor,Luisa Cutillo
発行日 2024-07-24 16:15:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク