TIPAA-SSL: Text Independent Phone-to-Audio Alignment based on Self-Supervised Learning and Knowledge Transfer

要約

本論文では、音素認識、表現学習、知識移転に基づく、テキストに依存しない音声間のアライメントのための新しいアプローチを紹介する。本手法は、コネクショニスト時間分類(CTC)損失、次元削減モデル、強制アライメントラベル(Montreal Forced Alignerを使用)により訓練されたフレームレベルの音素分類器を用いて音素認識を微調整した自己教師モデル(wav2vec2)を活用し、多言語の音素表現を生成する。TIMITデータセットとSCRIBEデータセットのアメリカ英語とイギリス英語の合成ネイティブデータを用いてモデルを評価する。我々の提案するモデルは、統計的な指標において最先端のcharsiuを上回り、言語学習や音声処理システムへの応用が期待できる。他の言語に対する実験は今後の課題として残すが、システムの設計上、他の言語への適応は容易である。

要約(オリジナル)

In this paper, we present a novel approach for text independent phone-to-audio alignment based on phoneme recognition, representation learning and knowledge transfer. Our method leverages a self-supervised model (wav2vec2) fine-tuned for phoneme recognition using a Connectionist Temporal Classification (CTC) loss, a dimension reduction model and a frame-level phoneme classifier trained thanks to forced-alignment labels (using Montreal Forced Aligner) to produce multi-lingual phonetic representations, thus requiring minimal additional training. We evaluate our model using synthetic native data from the TIMIT dataset and the SCRIBE dataset for American and British English, respectively. Our proposed model outperforms the state-of-the-art (charsiu) in statistical metrics and has applications in language learning and speech processing systems. We leave experiments on other languages for future work but the design of the system makes it easily adaptable to other languages.

arxiv情報

著者 Noé Tits,Prernna Bhatnagar,Thierry Dutoit
発行日 2024-05-03 14:25:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS パーマリンク