Demographic Attributes Prediction from Speech Using WavLM Embeddings

要約

このペーパーでは、WAVLM機能に基づいた一般的な分類器を紹介し、年齢、性別、母国語、教育、国などの人口統計学的特性をスピーチから推測します。
人口統計機能の予測は、言語学習、アクセシビリティ、デジタルフォレンジックなどのアプリケーションで重要な役割を果たし、よりパーソナライズされた包括的なテクノロジーを可能にします。
埋め込み抽出のための前提条件のモデルを活用して、提案されたフレームワークは、人口統計属性に関連する重要な音響および言語のFEAから、年齢予測では4.94の平均絶対誤差(MAE)、さまざまなデータセット全体の性別分類の99.81%を超える精度を達成します。
当社のシステムは、MAEで相対的な30%まで既存のモデルを改善し、タスク全体で相対的な10%とF1スコアを改善し、多様な範囲のデータセットと大規模な前提型モデルを活用して、堅牢性と一般化可能性を確保します。
この研究は、スピーカーの多様性に関する新しい洞察を提供し、音声ベースの人口統計プロファイリングにおける将来の研究のための強力な基盤を提供します。

要約(オリジナル)

This paper introduces a general classifier based on WavLM features, to infer demographic characteristics, such as age, gender, native language, education, and country, from speech. Demographic feature prediction plays a crucial role in applications like language learning, accessibility, and digital forensics, enabling more personalized and inclusive technologies. Leveraging pretrained models for embedding extraction, the proposed framework identifies key acoustic and linguistic fea-tures associated with demographic attributes, achieving a Mean Absolute Error (MAE) of 4.94 for age prediction and over 99.81% accuracy for gender classification across various datasets. Our system improves upon existing models by up to relative 30% in MAE and up to relative 10% in accuracy and F1 scores across tasks, leveraging a diverse range of datasets and large pretrained models to ensure robustness and generalizability. This study offers new insights into speaker diversity and provides a strong foundation for future research in speech-based demographic profiling.

arxiv情報

著者 Yuchen Yang,Thomas Thebaud,Najim Dehak
発行日 2025-02-17 16:43:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク