Language-Universal Speech Attributes Modeling for Zero-Shot Multilingual Spoken Keyword Recognition

要約

我々は、(i) 自己教師付きの事前トレーニング済みモデル、および (ii) 一連の普遍的な音声属性 (話し方と場所) を活用して、エンドツーエンドの自動音声キーワード認識 (SKR) に対する新しい言語普遍的なアプローチを提案します。
アーティキュレーション)。
具体的には、Wav2Vec2.0 を使用して堅牢な音声表現を生成し、続いて線形出力層を使用して属性シーケンスを生成します。
次に、トレーニング不可能な発音モデルが、多言語設定で一連の属性を音声キーワードにマッピングします。
多言語音声コーパスの実験では、実際に使用されている言語における文字および音素ベースの SKR と同等のパフォーマンスが示されています。
ドメイン敵対的トレーニング (DAT) を含めることで、提案されたフレームワークが改善され、文字ベースと音素ベースの両方の SKR アプローチを上回り、既知の言語での相対単語誤り率 (WER) が 13.73% と 17.22% 減少し、WER が 32.14% と 19.92% 達成されました。
ゼロショット設定での表示されない言語の削減。

要約(オリジナル)

We propose a novel language-universal approach to end-to-end automatic spoken keyword recognition (SKR) leveraging upon (i) a self-supervised pre-trained model, and (ii) a set of universal speech attributes (manner and place of articulation). Specifically, Wav2Vec2.0 is used to generate robust speech representations, followed by a linear output layer to produce attribute sequences. A non-trainable pronunciation model then maps sequences of attributes into spoken keywords in a multilingual setting. Experiments on the Multilingual Spoken Words Corpus show comparable performances to character- and phoneme-based SKR in seen languages. The inclusion of domain adversarial training (DAT) improves the proposed framework, outperforming both character- and phoneme-based SKR approaches with 13.73% and 17.22% relative word error rate (WER) reduction in seen languages, and achieves 32.14% and 19.92% WER reduction for unseen languages in zero-shot settings.

arxiv情報

著者 Hao Yen,Pin-Jui Ku,Sabato Marco Siniscalchi,Chin-Hui Lee
発行日 2024-06-04 16:59:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク