SpeechBlender: Speech Augmentation Framework for Mispronunciation Data Generation

要約

ラベル付きの第 2 言語 (L2) 音声データの欠如は、発音間違い検出モデルを設計する際の大きな課題です。
このようなデータ不足を克服するために、発音ミスを生成するためのきめ細かいデータ拡張パイプラインである SpeechBlender を紹介します。
SpeechBlender は、さまざまなマスクを利用して音声単位のさまざまな領域をターゲットにし、ミキシング係数を使用して生の音声信号を線形補間しながら発音を強化します。
マスクは信号のスムーズなブレンドを促進し、「カット/ペースト」方法よりも効果的なサンプルを生成します。
私たちが提案した手法は、Speechocean762 を使用して、音素レベルでの ASR 依存の発音誤り検出モデルにおいて最先端の結果を達成し、以前の最先端技術と比較してピアソン相関係数 (PCC) が 2.0% 向上しました。
1]。
さらに、ベースラインと比較して音素レベルで 5.0% の改善が見られます。
また、アラビア語の AraVoiceL2 テストセットを使用すると、F1 スコアが 4.6% 増加することも観察されました。

要約(オリジナル)

The lack of labeled second language (L2) speech data is a major challenge in designing mispronunciation detection models. We introduce SpeechBlender – a fine-grained data augmentation pipeline for generating mispronunciation errors to overcome such data scarcity. The SpeechBlender utilizes varieties of masks to target different regions of phonetic units, and use the mixing factors to linearly interpolate raw speech signals while augmenting pronunciation. The masks facilitate smooth blending of the signals, generating more effective samples than the `Cut/Paste’ method. Our proposed technique achieves state-of-the-art results, with Speechocean762, on ASR dependent mispronunciation detection models at phoneme level, with a 2.0% gain in Pearson Correlation Coefficient (PCC) compared to the previous state-of-the-art [1]. Additionally, we demonstrate a 5.0% improvement at the phoneme level compared to our baseline. We also observed a 4.6% increase in F1-score with Arabic AraVoiceL2 testset.

arxiv情報

著者 Yassine El Kheir,Shammur Absar Chowdhury,Ahmed Ali,Hamdy Mubarak,Shazia Afzal
発行日 2023-07-12 12:28:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク