Self-supervised learning for infant cry analysis



– 幼児の泣き声に関する初めてのデータベースを用いた自己教師付き学習(SSL)を用いた解析を試みる。
– 特に、神経損傷の泣き声や痛み、空腹、不快感などのトリガーの識別を行いたいと考える。
– 医療現場での大規模データベースの注釈付けはコストがかかり、専門家の協力が必要であるため、大量の非注釈音声データを用いた有用な表現の学習は、強力なモデルや最終的な臨床ソリューションの構築のコストを下げることができる。
– 本研究では、大規模オーディオデータセットでの自己教師付き前処理を試みた。自己教師付き対比損失(SimCLR)での事前学習は、神経損傷と泣き声のトリガーの両方に対して、監督付き前処理よりも有意に優れていることを示した。
– SSLベースのドメイン適応を用いることで、非注釈の幼児の泣き声を用いてさらに高い性能を発揮している。これらのSSLベースの前処理を用いることにより、システム全体のラベルデータの必要性を低減することができることを示している。


In this paper, we explore self-supervised learning (SSL) for analyzing a first-of-its-kind database of cry recordings containing clinical indications of more than a thousand newborns. Specifically, we target cry-based detection of neurological injury as well as identification of cry triggers such as pain, hunger, and discomfort. Annotating a large database in the medical setting is expensive and time-consuming, typically requiring the collaboration of several experts over years. Leveraging large amounts of unlabeled audio data to learn useful representations can lower the cost of building robust models and, ultimately, clinical solutions. In this work, we experiment with self-supervised pre-training of a convolutional neural network on large audio datasets. We show that pre-training with SSL contrastive loss (SimCLR) performs significantly better than supervised pre-training for both neuro injury and cry triggers. In addition, we demonstrate further performance gains through SSL-based domain adaptation using unlabeled infant cries. We also show that using such SSL-based pre-training for adaptation to cry sounds decreases the need for labeled data of the overall system.


著者 Arsenii Gorin,Cem Subakan,Sajjad Abdoli,Junhao Wang,Samantha Latremouille,Charles Onu
発行日 2023-05-02 16:27:18+00:00
