CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction

要約

構音障害音声再構成 (DSR) は、構音障害のある音声を正常な音声に変換することを目的としています。
話者の類似性が低く、韻律の自然性が低いという問題がまだあります。
この論文では、ニューラル コーデック言語モデリングを活用して、特に話者の類似性と韻律の自然さの再構成結果を改善するマルチモーダル DSR モデルを提案します。
私たちが提案するモデルは次のもので構成されます。(i) 補助的な視覚入力を使用して構音障害のある音声から堅牢な音素埋め込みを抽出するマルチモーダル コンテンツ エンコーダ。
(ii)元の音色と正常な韻律を提供するために、構音障害のある音声から話者認識コーデックを抽出して正規化する話者コーデック エンコーダ。
(iii)抽出された音素埋め込みおよび正規化されたコーデックに基づいて音声を再構築するコーデック言語モデルベースの音声デコーダ。
一般的に使用されている UASpeech コーパスの評価では、私たちが提案したモデルが話者の類似性と韻律の自然さの点で大幅な改善を達成できることが示されています。

要約(オリジナル)

Dysarthric speech reconstruction (DSR) aims to transform dysarthric speech into normal speech. It still suffers from low speaker similarity and poor prosody naturalness. In this paper, we propose a multi-modal DSR model by leveraging neural codec language modeling to improve the reconstruction results, especially for the speaker similarity and prosody naturalness. Our proposed model consists of: (i) a multi-modal content encoder to extract robust phoneme embeddings from dysarthric speech with auxiliary visual inputs; (ii) a speaker codec encoder to extract and normalize the speaker-aware codecs from the dysarthric speech, in order to provide original timbre and normal prosody; (iii) a codec language model based speech decoder to reconstruct the speech based on the extracted phoneme embeddings and normalized codecs. Evaluations on the commonly used UASpeech corpus show that our proposed model can achieve significant improvements in terms of speaker similarity and prosody naturalness.

arxiv情報

著者 Xueyuan Chen,Dongchao Yang,Dingdong Wang,Xixin Wu,Zhiyong Wu,Helen Meng
発行日 2024-06-12 15:42:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク