要約
自己監視型音声エンコーダのコードスイッチング機能を直接評価するために設計された、新しいゼロリソースコードスイッチング音声ベンチマークを導入します。
離散ユニットでの言語モデリングのベースライン システムを紹介し、音声エンコーダのコード スイッチング能力をリソースを使わずに評価する方法を示します。
私たちの実験には、Wav2vec 2.0、HuBERT、XLSR などのさまざまなよく知られた音声エンコーダーが含まれています。事前トレーニング言語とモデル サイズがベンチマーク パフォーマンスに与える影響を調査します。
特に、私たちの結果は、XLSR に代表される多言語事前トレーニングを備えた音声エンコーダが、コードスイッチングのシナリオにおいて単言語バリアント (Wav2vec 2.0、HuBERT) よりも優れたパフォーマンスを発揮することを示していますが、コードスイッチングの言語能力にはまだ大幅な改善の余地があります。
要約(オリジナル)
We introduce a new zero resource code-switched speech benchmark designed to directly assess the code-switching capabilities of self-supervised speech encoders. We showcase a baseline system of language modeling on discrete units to demonstrate how the code-switching abilities of speech encoders can be assessed in a zero-resource manner. Our experiments encompass a variety of well-known speech encoders, including Wav2vec 2.0, HuBERT, XLSR, etc. We examine the impact of pre-training languages and model size on benchmark performance. Notably, though our results demonstrate that speech encoders with multilingual pre-training, exemplified by XLSR, outperform monolingual variants (Wav2vec 2.0, HuBERT) in code-switching scenarios, there is still substantial room for improvement in their code-switching linguistic abilities.
arxiv情報
著者 | Kuan-Po Huang,Chih-Kai Yang,Yu-Kuan Fu,Ewan Dunbar,Hung-yi Lee |
発行日 | 2023-12-17 01:49:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google