Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages

要約

自己監視型音声エンコーダのコードスイッチング機能を直接評価するために設計された、新しいゼロリソースコードスイッチング音声ベンチマークを導入します。
離散ユニットでの言語モデリングのベースライン システムを紹介し、音声エンコーダのコード スイッチング能力をリソースを使わずに評価する方法を示します。
私たちの実験には、Wav2vec 2.0、HuBERT、XLSR などのさまざまなよく知られた音声エンコーダーが含まれています。事前トレーニング言語とモデル サイズがベンチマーク パフォーマンスに与える影響を調査します。
特に、私たちの結果は、XLSR に代表される多言語事前トレーニングを備えた音声エンコーダが、コードスイッチングのシナリオにおいて単言語バリアント (Wav2vec 2.0、HuBERT) よりも優れたパフォーマンスを発揮することを示していますが、コードスイッチングの言語能力にはまだ大幅な改善の余地があります。

要約(オリジナル)

We introduce a new zero resource code-switched speech benchmark designed to directly assess the code-switching capabilities of self-supervised speech encoders. We showcase a baseline system of language modeling on discrete units to demonstrate how the code-switching abilities of speech encoders can be assessed in a zero-resource manner. Our experiments encompass a variety of well-known speech encoders, including Wav2vec 2.0, HuBERT, XLSR, etc. We examine the impact of pre-training languages and model size on benchmark performance. Notably, though our results demonstrate that speech encoders with multilingual pre-training, exemplified by XLSR, outperform monolingual variants (Wav2vec 2.0, HuBERT) in code-switching scenarios, there is still substantial room for improvement in their code-switching linguistic abilities.

arxiv情報

著者 Kuan-Po Huang,Chih-Kai Yang,Yu-Kuan Fu,Ewan Dunbar,Hung-yi Lee
発行日 2023-10-04 17:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク