Open-vocabulary keyword spotting in any language through multilingual contrastive speech-phoneme pretraining

要約

この論文では、多様な言語族の 115 以上の言語を網羅する、きめ細かい音素転写を備えた大規模な多言語音声コーパスを紹介します。
この多言語データセットに基づいて、音声信号と音素的に転写されたキーワードまたは任意のフレーズとの間のオープン語彙マッチングが可能な多言語音素音声対比埋め込みモデルである CLAP-IPA を提案します。
提案されたモデルは、97 の未見の言語の 2 つのフィールドワーク音声コーパスでテストされ、言語間での強力な一般化可能性を示しました。
テキストベースのモデルと比較すると、モデリング単位として音素を使用すると、正書法テキストよりもはるかに優れた言語間一般化が可能になることがわかります。

要約(オリジナル)

In this paper, we introduce a massively multilingual speech corpora with fine-grained phonemic transcriptions, encompassing more than 115 languages from diverse language families. Based on this multilingual dataset, we propose CLAP-IPA, a multilingual phoneme-speech contrastive embedding model capable of open-vocabulary matching between speech signals and phonemically transcribed keywords or arbitrary phrases. The proposed model has been tested on two fieldwork speech corpora in 97 unseen languages, exhibiting strong generalizability across languages. Comparison with a text-based model shows that using phonemes as modeling units enables much better crosslinguistic generalization than orthographic texts.

arxiv情報

著者 Jian Zhu,Farhan Samir,Changbing Yang,Jahurul Islam
発行日 2023-11-14 17:09:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク