Which Augmentation Should I Use? An Empirical Investigation of Augmentations for Self-Supervised Phonocardiogram Representation Learning

要約

最近の研究活動の増加にもかかわらず、深層学習モデルは医療などのいくつかの実世界の環境ではまだ広く受け入れられていません。
高品質の注釈付きデータの不足により、配布外 (OOD) データセットを提示しても有効性が低下しない、堅牢で一般化可能なモデルの開発が妨げられることがよくあります。
対照的自己教師あり学習 (SSL) は、ラベルなしデータを利用してモデルの有効性と堅牢性を向上させるため、ラベル付きデータの不足に対する潜在的な解決策を提供します。
ただし、学習プロセス中に適切な変換を選択するのは簡単な作業ではなく、意味のある情報を抽出するネットワークの能力を損なうことさえあります。
この研究では、1D 心音図 (PCG) 分類に対照学習を適用するための最適な拡張を明らかにすることを提案します。
私たちは、幅広い音声ベースの拡張の広範な比較評価を実行し、下流タスク全体で複数のデータセットのモデルを評価し、各拡張の影響について報告します。
トレーニングの分布によっては、完全教師ありモデルの有効性が最大 32% 低下する可能性があるのに対し、SSL モデルは最大 10% の低下にとどまるか、場合によっては改善することさえあることを実証します。
私たちは、対照的な SSL 事前トレーニングが、医療専門家による時間と労働集約的なアノテーション プロセスに依存せずに、目に見えない OOD データに一般化できる堅牢な分類器を提供するのに役立つことを主張し、実験的に実証します。
さらに、提案された評価プロトコルは、モデルのトレーニングに対する効果の大きさを計算することにより、ロバストな PCG 信号処理に最も有望で適切な拡張を明らかにします。
最後に、新しいアプローチを開発するためのオープンソース コードベースに加えて、PCG 分類のための堅牢なモデルの作成に向けたロードマップを研究者と実務家に提供します。

要約(オリジナル)

Despite the recent increase in research activity, deep-learning models have not yet been widely accepted in several real-world settings, such as medicine. The shortage of high-quality annotated data often hinders the development of robust and generalizable models, which do not suffer from degraded effectiveness when presented with out-of-distribution (OOD) datasets. Contrastive Self-Supervised Learning (SSL) offers a potential solution to labeled data scarcity, as it takes advantage of unlabeled data to increase model effectiveness and robustness. However, the selection of appropriate transformations during the learning process is not a trivial task and even breaks down the ability of the network to extract meaningful information. In this research, we propose uncovering the optimal augmentations for applying contrastive learning in 1D phonocardiogram (PCG) classification. We perform an extensive comparative evaluation of a wide range of audio-based augmentations, evaluate models on multiple datasets across downstream tasks, and report on the impact of each augmentation. We demonstrate that depending on its training distribution, the effectiveness of a fully-supervised model can degrade up to 32%, while SSL models only lose up to 10% or even improve in some cases. We argue and experimentally demonstrate that, contrastive SSL pretraining can assist in providing robust classifiers which can generalize to unseen, OOD data, without relying on time- and labor-intensive annotation processes by medical experts. Furthermore, the proposed evaluation protocol sheds light on the most promising and appropriate augmentations for robust PCG signal processing, by calculating their effect size on model training. Finally, we provide researchers and practitioners with a roadmap towards producing robust models for PCG classification, in addition to an open-source codebase for developing novel approaches.

arxiv情報

著者 Aristotelis Ballas,Vasileios Papapanagiotou,Christos Diou
発行日 2024-04-05 11:19:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, q-bio.QM パーマリンク