Towards Open Respiratory Acoustic Foundation Models: Pretraining and Benchmarking

要約

咳や呼吸音などの呼吸音には、幅広い医療用途を予測する力がありますが、現時点では十分に研究されていません。
これらのアプリケーションの主な問題は、モデル開発のためにラベル付けされたタスク固有の大量のデータを収集することが難しいことから発生します。
ラベルなしのデータで事前トレーニングされた一般化可能な呼吸音響基礎モデルは魅力的な利点を提供し、おそらくこの行き詰まりを解決するでしょう。
ただし、ヘルスケア アプリケーションは安全性が重要であるため、提案された基盤モデル ソリューションのオープン性と複製可能性を確保することも極めて重要です。
この目的を達成するために、このニーズに応える最初のアプローチとして、OPEn 呼吸音響基礎モデルの事前トレーニングおよびベンチマーク システムである OPERA を導入します。
私たちは大規模な呼吸音声データセット (約 136,000 サンプル、400 時間以上) を厳選し、3 つの先駆的な基礎モデルを事前トレーニングし、評価用の下流の呼吸器健康タスク 19 からなるベンチマークを構築します。
当社の事前トレーニング済みモデルは、優れたパフォーマンス (19 タスク中 16 個の一般音声で事前トレーニングされた既存の音響モデルに対して) と一般化可能性 (未確認のデータセットおよび新しい呼吸音声モダリティに対して) を示します。
これは、呼吸音響基礎モデルの大きな可能性を強調し、健康のための呼吸音響に関する研究を加速するオープンリソースとして OPERA を使用したさらなる研究を奨励します。
このシステムには https://github.com/evelyn0414/OPERA からアクセスできます。

要約(オリジナル)

Respiratory audio, such as coughing and breathing sounds, has predictive power for a wide range of healthcare applications, yet is currently under-explored. The main problem for those applications arises from the difficulty in collecting large labeled task-specific data for model development. Generalizable respiratory acoustic foundation models pretrained with unlabeled data would offer appealing advantages and possibly unlock this impasse. However, given the safety-critical nature of healthcare applications, it is pivotal to also ensure openness and replicability for any proposed foundation model solution. To this end, we introduce OPERA, an OPEn Respiratory Acoustic foundation model pretraining and benchmarking system, as the first approach answering this need. We curate large-scale respiratory audio datasets (~136K samples, over 400 hours), pretrain three pioneering foundation models, and build a benchmark consisting of 19 downstream respiratory health tasks for evaluation. Our pretrained models demonstrate superior performance (against existing acoustic models pretrained with general audio on 16 out of 19 tasks) and generalizability (to unseen datasets and new respiratory audio modalities). This highlights the great promise of respiratory acoustic foundation models and encourages more studies using OPERA as an open resource to accelerate research on respiratory audio for health. The system is accessible from https://github.com/evelyn0414/OPERA.

arxiv情報

著者 Yuwei Zhang,Tong Xia,Jing Han,Yu Wu,Georgios Rizos,Yang Liu,Mohammed Mosuily,Jagmohan Chauhan,Cecilia Mascolo
発行日 2024-11-07 15:23:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS パーマリンク