An Audio-textual Diffusion Model For Converting Speech Signals Into Ultrasound Tongue Imaging Data

要約

音響-調音反転 (AAI) は、音声を超音波舌画像 (UTI) データなどの調音器官の動きに変換することです。
既存の AAI 手法の問題は、個人化された音響情報を使用して舌の動きの一般的なパターンを導出するだけであるため、生成される UTI データの品質が制限されていることです。
この問題に対処するために、この論文では、UTI データ生成タスク用のオーディオとテキストの拡散モデルを提案します。
このモデルでは、舌の動きの詳細に関連する個人固有の音響特性は wav2vec 2.0 を使用してエンコードされ、舌の動きの普遍性に関連する ASR 転写は BERT を使用してエンコードされます。
次に、拡散モジュールを使用して UTI データが生成されます。
実験結果は、提案された拡散モデルが、言語分析と臨床評価に重要な、明確な舌輪郭を備えた高品質の UTI データを生成できることを示しました。
プロジェクトはウェブサイト\脚注{https://yangyudong2020.github.io/wav2uti/にあります。

要約(オリジナル)

Acoustic-to-articulatory inversion (AAI) is to convert audio into articulator movements, such as ultrasound tongue imaging (UTI) data. An issue of existing AAI methods is only using the personalized acoustic information to derive the general patterns of tongue motions, and thus the quality of generated UTI data is limited. To address this issue, this paper proposes an audio-textual diffusion model for the UTI data generation task. In this model, the inherent acoustic characteristics of individuals related to the tongue motion details are encoded by using wav2vec 2.0, while the ASR transcriptions related to the universality of tongue motions are encoded by using BERT. UTI data are then generated by using a diffusion module. Experimental results showed that the proposed diffusion model could generate high-quality UTI data with clear tongue contour that is crucial for the linguistic analysis and clinical assessment. The project can be found on the website\footnote{https://yangyudong2020.github.io/wav2uti/

arxiv情報

著者 Yudong Yang,Rongfeng Su,Xiaokang Liu,Nan Yan,Lan Wang
発行日 2024-03-12 11:26:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク