Automatic classification of stop realisation with wav2vec2.0

要約

現代の音声研究は、音声データの注釈のために自動ツールを定期的に使用していますが、多くの可変音声現象の注釈にはほとんど存在しません。
同時に、WAV2VEC2.0などの事前に訓練された自己監視モデルは、音声分類タスクでうまく機能し、微妙に細粒の音声情報をエンコードすることが示されています。
WAV2VEC2.0モデルをトレーニングして、英語と日本語の両方で高精度で停止バーストの存在を自動的に分類できることを実証します。
停止実現における変動性のパターンは、自動注釈で複製され、手動注釈のパターンに密接に従います。
これらの結果は、スピーチコーパスデータの自動注釈と処理のツールとしての事前に訓練された音声モデルの可能性を示しており、研究者が比較的容易に音声研究の範囲を「スケールアップ」できるようにします。

要約(オリジナル)

Modern phonetic research regularly makes use of automatic tools for the annotation of speech data, however few tools exist for the annotation of many variable phonetic phenomena. At the same time, pre-trained self-supervised models, such as wav2vec2.0, have been shown to perform well at speech classification tasks and latently encode fine-grained phonetic information. We demonstrate that wav2vec2.0 models can be trained to automatically classify stop burst presence with high accuracy in both English and Japanese, robust across both finely-curated and unprepared speech corpora. Patterns of variability in stop realisation are replicated with the automatic annotations, and closely follow those of manual annotations. These results demonstrate the potential of pre-trained speech models as tools for the automatic annotation and processing of speech corpus data, enabling researchers to ‘scale-up’ the scope of phonetic research with relative ease.

arxiv情報

著者 James Tanner,Morgan Sonderegger,Jane Stuart-Smith,Jeff Mielke,Tyler Kendall
発行日 2025-05-30 03:54:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク