Anomalous Sound Detection using Audio Representation with Machine ID based Contrastive Learning Pretraining

要約

タイトル:機械IDベースの対比学習による音声表現を用いた異常音の検出

要約:
– 異常音検出における既存の対比学習方法は、音声の表現をオーグメンテーション間の対比によって改善するが、機械音響に対する物理的な特性の欠如によってオーグメンテーションに偏ってしまうことがあるため検出の性能が制限されている。
– 本論文では、音声表現を、各音声サンプルではなく各機械IDごとに、対比学習で洗練することを提案している。
– 提案された2段階の方法は、機械IDと自己教師付きID分類器を組み込んだ対比学習を使用して音声表現モデルを事前学習し、学習されたモデルを微調整しながら、同じIDからの音声特徴の関係を強化する。
– 実験では、DCASE 2020チャレンジタスク2のデータセットにおいて、対比学習または自己教師付き分類による最新の手法よりも、提案手法が全体的な異常検出性能と安定性において優れていることが示された。

要約(オリジナル)

Existing contrastive learning methods for anomalous sound detection refine the audio representation of each audio sample by using the contrast between the samples’ augmentations (e.g., with time or frequency masking). However, they might be biased by the augmented data, due to the lack of physical properties of machine sound, thereby limiting the detection performance. This paper uses contrastive learning to refine audio representations for each machine ID, rather than for each audio sample. The proposed two-stage method uses contrastive learning to pretrain the audio representation model by incorporating machine ID and a self-supervised ID classifier to fine-tune the learnt model, while enhancing the relation between audio features from the same ID. Experiments show that our method outperforms the state-of-the-art methods using contrastive learning or self-supervised classification in overall anomaly detection performance and stability on DCASE 2020 Challenge Task2 dataset.

arxiv情報

著者 Jian Guan,Feiyang Xiao,Youde Liu,Qiaoxi Zhu,Wenwu Wang
発行日 2023-04-10 04:04:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク