AdaCS: Adaptive Normalization for Enhanced Code-Switching ASR

要約

センテンシャル内コードスイッチング (CS) は、単一の発話内で発生する言語間の切り替えを指し、自動音声認識 (ASR) システムにとっては重大な課題です。
たとえば、ベトナム語話者がスピーチの中で外国の固有名詞や専門用語を使用する場合です。
ASR システムは、単一言語データでのトレーニングと CS の予測不可能な性質により、センテンシャル内の CS を正確に転写するのに苦労することがよくあります。
この問題は、リソースが少ない言語ではさらに顕著であり、利用可能なデータが限られているため、堅牢なモデルの開発が妨げられます。
この研究では、適応バイアス アテンション モジュール (BAM) をエンコーダ/デコーダ ネットワークに統合する正規化モデルである AdaCS を提案します。
この新しいアプローチは、目に見えない領域における CS ASR に対する堅牢なソリューションを提供し、それによってこの分野への当社の貢献を大幅に強化します。
BAM を利用して CS フレーズの識別と正規化の両方を行うことで、AdaCS は推論中に提供される偏った単語のリストで適応能力を強化します。
私たちのメソッドは、優れたパフォーマンスと、さまざまなドメインにわたる目に見えない CS フレーズを処理する能力を実証しています。
実験の結果、AdaCS は、提案された 2 つのテスト セットで 56.2% および 36.8% という大幅な WER 削減により、ベトナム CS ASR 正規化に関して以前の最先端の方法よりも優れたパフォーマンスを示しました。

要約(オリジナル)

Intra-sentential code-switching (CS) refers to the alternation between languages that happens within a single utterance and is a significant challenge for Automatic Speech Recognition (ASR) systems. For example, when a Vietnamese speaker uses foreign proper names or specialized terms within their speech. ASR systems often struggle to accurately transcribe intra-sentential CS due to their training on monolingual data and the unpredictable nature of CS. This issue is even more pronounced for low-resource languages, where limited data availability hinders the development of robust models. In this study, we propose AdaCS, a normalization model integrates an adaptive bias attention module (BAM) into encoder-decoder network. This novel approach provides a robust solution to CS ASR in unseen domains, thereby significantly enhancing our contribution to the field. By utilizing BAM to both identify and normalize CS phrases, AdaCS enhances its adaptive capabilities with a biased list of words provided during inference. Our method demonstrates impressive performance and the ability to handle unseen CS phrases across various domains. Experiments show that AdaCS outperforms previous state-of-the-art method on Vietnamese CS ASR normalization by considerable WER reduction of 56.2% and 36.8% on the two proposed test sets.

arxiv情報

著者 The Chuong Chu,Vu Tuan Dat Pham,Kien Dao,Hoang Nguyen,Quoc Hung Truong
発行日 2025-01-13 07:27:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク