Employing self-supervised learning models for cross-linguistic child speech maturity classification

要約

スピーチテクノロジーシステムは、小規模なトレーニングコーパスと子どものスピーチがもたらす困難により、子どものスピーチのための多くの下流タスクと闘っています。
新しいデータセットであるSpeechMaturityを最先端の変圧器モデルに適用して、基本的な分類タスク、つまり子供の発声を識別します。
以前のコーパスとは異なり、当社のデータセットは、米国、ボリビア、バヌアツ、パプアニューギニア、ソロモン諸島、フランスで25以上の言語を獲得する子どもたちを含む、前例のないサンプル全体で生態学的に有効な子供の発声を最大限に捉えています。
データセットには、242,004のラベル付きボーカリゼーションが含まれています。これは、以前の作業よりも大きい大きさです。
モデルは、泣き声、笑い、成熟(子音+母音)、未熟な発話(ただ子音または母音)を区別するために訓練されました。
データセットでトレーニングされたモデルは、以前のデータセットでトレーニングされた最先端のモデルを上回り、人間に匹敵する分類精度を達成し、農村部と都市部で堅牢でした。

要約(オリジナル)

Speech technology systems struggle with many downstream tasks for child speech due to small training corpora and the difficulties that child speech pose. We apply a novel dataset, SpeechMaturity, to state-of-the-art transformer models to address a fundamental classification task: identifying child vocalizations. Unlike previous corpora, our dataset captures maximally ecologically-valid child vocalizations across an unprecedented sample, comprising children acquiring 25+ languages in the U.S., Bolivia, Vanuatu, Papua New Guinea, Solomon Islands, and France. The dataset contains 242,004 labeled vocalizations, magnitudes larger than previous work. Models were trained to distinguish between cry, laughter, mature (consonant+vowel), and immature speech (just consonant or vowel). Models trained on the dataset outperform state-of-the-art models trained on previous datasets, achieved classification accuracy comparable to humans, and were robust across rural and urban settings.

arxiv情報

著者 Theo Zhang,Madurya Suresh,Anne S. Warlaumont,Kasia Hitczenko,Alejandrina Cristia,Margaret Cychosz
発行日 2025-06-10 17:20:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク