要約
WAV2VEC2、Hubert、WAVLM、Whisperなどの音声処理の自己監視学習モデルは、言語的情報と麻痺情報の両方をキャプチャする埋め込みを生成し、話されたコンテンツとは独立してトーンを分析することを困難にします。
この作業では、音声埋め込みを対応するテキストの埋め込みに回帰させ、残差をボーカルトーンの表現として使用することにより、言語コンテンツから麻痺性の特徴を解き放つ方法を紹介します。
複数の自己監視された音声埋め込みにわたってこのアプローチを評価し、残留埋め込みが生の音声埋め込みと比較してトーン分類パフォーマンスを大幅に改善することを示しています。
私たちの結果は、この方法が線形分離性を高め、ロジスティック回帰などの単純なモデルでも分類が改善できることを示しています。
残留埋め込みの視覚化により、トーン関連の機能を保存しながら、言語情報の除去が成功したことがさらに確認されます。
これらの発見は、感情分析、スピーカーの特性評価、および麻痺性音声処理におけるアプリケーションの残留埋め込みの可能性を強調しています。
要約(オリジナル)
Self-supervised learning models for speech processing, such as wav2vec2, HuBERT, WavLM, and Whisper, generate embeddings that capture both linguistic and paralinguistic information, making it challenging to analyze tone independently of spoken content. In this work, we introduce a method for disentangling paralinguistic features from linguistic content by regressing speech embeddings onto their corresponding text embeddings and using the residuals as a representation of vocal tone. We evaluate this approach across multiple self-supervised speech embeddings, demonstrating that residual embeddings significantly improve tone classification performance compared to raw speech embeddings. Our results show that this method enhances linear separability, enabling improved classification even with simple models such as logistic regression. Visualization of the residual embeddings further confirms the successful removal of linguistic information while preserving tone-related features. These findings highlight the potential of residual embeddings for applications in sentiment analysis, speaker characterization, and paralinguistic speech processing.
arxiv情報
著者 | Hamdan Al Ahbabi,Gautier Marti,Saeed AlMarri,Ibrahim Elfadel |
発行日 | 2025-02-26 18:32:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google