Speaker Embeddings as Individuality Proxy for Voice Stress Detection

要約

話者の精神状態が音声を調整するため、認知的または身体的負荷によってもたらされるストレスが音声で検出される可能性があります。
既存の音声ストレス検出ベンチマークは、ハイブリッド BYOL-S 自己教師ありモデルから抽出されたオーディオ埋め込みが良好にパフォーマンスすることを示しています。
ただし、ベンチマークは各データセットのパフォーマンスを個別に評価するだけで、さまざまな種類のストレスやさまざまな言語にわたるパフォーマンスは評価しません。
さらに、以前の研究では、ストレス感受性には強い個人差があることが判明しました。
この論文では、9 つ​​の言語グループと 5 つの異なる種類の強勢からなる 100 人以上の話者を対象にトレーニングされた音声強勢検出の設計と開発について説明します。
ハイブリッド BYOL-S 機能に話者エンベディングを追加することで、音声ストレス分析における個人差に対処します。
提案手法は、わずか 3 ~ 5 秒の入力音声長で音声強弱検出性能を大幅に向上させます。

要約(オリジナル)

Since the mental states of the speaker modulate speech, stress introduced by cognitive or physical loads could be detected in the voice. The existing voice stress detection benchmark has shown that the audio embeddings extracted from the Hybrid BYOL-S self-supervised model perform well. However, the benchmark only evaluates performance separately on each dataset, but does not evaluate performance across the different types of stress and different languages. Moreover, previous studies found strong individual differences in stress susceptibility. This paper presents the design and development of voice stress detection, trained on more than 100 speakers from 9 language groups and five different types of stress. We address individual variabilities in voice stress analysis by adding speaker embeddings to the hybrid BYOL-S features. The proposed method significantly improves voice stress detection performance with an input audio length of only 3-5 seconds.

arxiv情報

著者 Zihan Wu,Neil Scheidwasser-Clow,Karl El Hajal,Milos Cernak
発行日 2023-06-09 14:11:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.AS パーマリンク