Learning Audio Features with Metadata and Contrastive Learning

要約

アノテーションをエンドツーエンドで使用する教師あり学習に基づく方法は、分類問題の最先端技術です。
ただし、特に低データ体制では、一般化機能が制限される場合があります。
この研究では、データの適切な表現を学習する複数の口実タスクを解決するために、利用可能なメタデータと組み合わせた教師付き対照学習を使用してこの問題に対処します。
この設定に適した呼吸音分類データセットである ICBHI にアプローチを適用します。
クラスラベルなしでメタデータのみを使用して表現を学習すると、それらのラベルのみでクロスエントロピーを使用する場合と同様のパフォーマンスが得られることを示します。
さらに、複数の教師あり対照学習を使用してクラス ラベルをメタデータと組み合わせると、最先端のスコアが得られます。
この作業は、特にクラスの不均衡とデータの少ない設定で、監視された対照的な設定で複数のメタデータ ソースを使用する可能性を示唆しています。
コードは https://github.com/ilyassmoummad/scl_icbhi2017 で公開されています

要約(オリジナル)

Methods based on supervised learning using annotations in an end-to-end fashion have been the state-of-the-art for classification problems. However, they may be limited in their generalization capability, especially in the low data regime. In this study, we address this issue using supervised contrastive learning combined with available metadata to solve multiple pretext tasks that learn a good representation of data. We apply our approach on ICBHI, a respiratory sound classification dataset suited for this setting. We show that learning representations using only metadata, without class labels, obtains similar performance as using cross entropy with those labels only. In addition, we obtain state-of-the-art score when combining class labels with metadata using multiple supervised contrastive learning. This work suggests the potential of using multiple metadata sources in supervised contrastive settings, in particular in settings with class imbalance and few data. Our code is released at https://github.com/ilyassmoummad/scl_icbhi2017

arxiv情報

著者 Ilyass Moummad,Nicolas Farrugia
発行日 2023-03-13 16:21:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク