Disentangling Prosody Representations with Unsupervised Speech Reconstruction

要約

人間の音声は、意味内容、話者の身元、韻律情報などのさまざまな要素によって特徴づけられます。
自動音声認識 (ASR) タスクと話者検証タスクにおける意味論的コンテンツと話者 ID の表現の解きほぐしにおいて、大きな進歩が見られました。
ただし、音色やリズムなどのさまざまな属性の本質的な関連性、および堅牢な大規模で話者に依存しない ASR を達成するための教師ありトレーニング スキームの必要性のため、韻律情報を抽出することは依然として未解決の挑戦的な研究課題です。
この論文の目的は、教師なし再構成に基づいて音声から感情的な韻律を解きほぐすことに取り組むことです。
具体的には、私たちが提案する音声再構成モデ​​ル Prosody2Vec の 3 つの重要なコンポーネントを特定、設計、実装、統合します: (1) 音声信号を意味論的コンテンツの離散単位に変換するユニット エンコーダー、(2) 話者 ID を生成するための事前学習済み話者検証モデル
埋め込み、および (3) 韻律表現を学習するためのトレーニング可能な韻律エンコーダー。
まず、ラベルのない感情音声コーパスで Prosody2Vec 表現を事前トレーニングし、次に特定のデータセットでモデルを微調整して、音声感情認識 (SER) および感情音声変換 (EVC) タスクを実行します。
EVC タスクの客観的評価 (重み付き精度と重み付けなしの精度) と主観的 (平均意見スコア) の両方の評価は、Prosody2Vec が他の感情的な音声にスムーズに転送できる一般的な韻律特徴を効果的に捕捉していることを示唆しています。
さらに、IEMOCAP データセットに対する SER 実験では、Prosody2Vec によって学習された韻律特徴が補完的であり、広く使用されている音声事前学習モデルのパフォーマンスに有益であり、Prosody2Vec と HuBERT 表現を組み合わせた場合に最先端の手法を上回ることが明らかになりました。

要約(オリジナル)

Human speech can be characterized by different components, including semantic content, speaker identity and prosodic information. Significant progress has been made in disentangling representations for semantic content and speaker identity in Automatic Speech Recognition (ASR) and speaker verification tasks respectively. However, it is still an open challenging research question to extract prosodic information because of the intrinsic association of different attributes, such as timbre and rhythm, and because of the need for supervised training schemes to achieve robust large-scale and speaker-independent ASR. The aim of this paper is to address the disentanglement of emotional prosody from speech based on unsupervised reconstruction. Specifically, we identify, design, implement and integrate three crucial components in our proposed speech reconstruction model Prosody2Vec: (1) a unit encoder that transforms speech signals into discrete units for semantic content, (2) a pretrained speaker verification model to generate speaker identity embeddings, and (3) a trainable prosody encoder to learn prosody representations. We first pretrain the Prosody2Vec representations on unlabelled emotional speech corpora, then fine-tune the model on specific datasets to perform Speech Emotion Recognition (SER) and Emotional Voice Conversion (EVC) tasks. Both objective (weighted and unweighted accuracies) and subjective (mean opinion score) evaluations on the EVC task suggest that Prosody2Vec effectively captures general prosodic features that can be smoothly transferred to other emotional speech. In addition, our SER experiments on the IEMOCAP dataset reveal that the prosody features learned by Prosody2Vec are complementary and beneficial for the performance of widely used speech pretraining models and surpass the state-of-the-art methods when combining Prosody2Vec with HuBERT representations.

arxiv情報

著者 Leyuan Qu,Taihao Li,Cornelius Weber,Theresa Pekarek-Rosin,Fuji Ren,Stefan Wermter
発行日 2023-09-26 02:42:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク