Can a Machine Distinguish High and Low Amount of Social Creak in Speech?

要約

目的: 特に女性の話者の間で社交的きしみの有病率が増加していることが、いくつかの研究で報告されています。
社会的きしみの研究は、音声の知覚評価と、高調波対雑音比やケプストラムピークプロミネンスなどの従来の音響パラメータを組み合わせることによって、これまでに実施されてきた。
現在の研究では、機械学習 (ML) を使用して、社会的きしみの量が少ない音声と社会的きしみの量が多い音声を自動的に区別しました。
方法: 90 人の女性話者によってフィンランド語で生成された連続音声サンプルのきしみの量が、まず 2 人の音声専門家によって知覚的に評価されました。
評価に基づいて、音声サンプルは 2 つのカテゴリ (低 $vs$、多量のきしみ音) に分類されました。
音声信号とそのきしみラベルを使用して、7 つの異なる ML モデルがトレーニングされました。
3 つのスペクトル表現が各モデルの特徴として使用されました。
結果: 結果は、メル スペクトログラム機能を使用した Adaboost 分類器とメル周波数ケプストラム係数機能を使用した決定木分類器の 2 つのシステムによって最高のパフォーマンス (精度 71.1\%) が得られたことを示しています。
結論: 社会言語学的および音声学的研究において、社会的きしみの研究はますます人気が高まっています。
従来の人間によるきしみの量の知覚評価は手間がかかるため、ML テクノロジーを使用して社会的きしみを研究する研究者を支援できる可能性があります。
この研究で報告された分類システムは、ソーシャル クリークに関する今後の ML ベースの研究のベースラインとして考慮される可能性があります。

要約(オリジナル)

Objectives: ncreased prevalence of social creak particularly among female speakers has been reported in several studies. The study of social creak has been previously conducted by combining perceptual evaluation of speech with conventional acoustical parameters such as the harmonic-to-noise ratio and cepstral peak prominence. In the current study, machine learning (ML) was used to automatically distinguish speech of low amount of social creak from speech of high amount of social creak. Methods: The amount of creak in continuous speech samples produced in Finnish by 90 female speakers was first perceptually assessed by two voice specialists. Based on their assessments, the speech samples were divided into two categories (low $vs$. high amount of creak). Using the speech signals and their creak labels, seven different ML models were trained. Three spectral representations were used as feature for each model. Results: The results show that the best performance (accuracy of 71.1\%) was obtained by the following two systems: an Adaboost classifier using the mel-spectrogram feature and a decision tree classifier using the mel-frequency cepstral coefficient feature. Conclusions: The study of social creak is becoming increasingly popular in sociolinguistic and vocological research. The conventional human perceptual assessment of the amount of creak is laborious and therefore ML technology could be used to assist researchers studying social creak. The classification systems reported in this study could be considered as baselines in future ML-based studies on social creak.

arxiv情報

著者 Anne-Maria Laukkanen,Sudarsana Reddy Kadiri,Shrikanth Narayanan,Paavo Alku
発行日 2024-10-22 13:52:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS パーマリンク