Improving Zero-Shot Chinese-English Code-Switching ASR with kNN-CTC and Gated Monolingual Datastores

要約

kNN-CTC モデルは、単言語自動音声認識 (ASR) に有効であることが証明されています。
ただし、コードスイッチングなどの多言語シナリオに直接適用すると、課題が生じます。
パフォーマンスが向上する可能性はありますが、単一のバイリンガル データストアを利用する kNN-CTC モデルでは、代替言語からの望ましくないノイズが誤って導入される可能性があります。
これに対処するために、デュアル単一言語データストアとゲート データストア選択メカニズムを採用してノイズ干渉を低減する、新しい kNN-CTC ベースのコードスイッチング ASR (CS-ASR) フレームワークを提案します。
私たちの方法では、各フレームのデコードに適切なデータストアを選択し、言語固有の情報を ASR プロセスに確実に挿入します。
このフレームワークを最先端の CTC ベースのモデルに適用し、高度な CS-ASR システムを開発します。
広範な実験により、ゼロショット中国語-英語 CS-ASR のパフォーマンス向上におけるゲート データストア メカニズムの顕著な効果が実証されました。

要約(オリジナル)

The kNN-CTC model has proven to be effective for monolingual automatic speech recognition (ASR). However, its direct application to multilingual scenarios like code-switching, presents challenges. Although there is potential for performance improvement, a kNN-CTC model utilizing a single bilingual datastore can inadvertently introduce undesirable noise from the alternative language. To address this, we propose a novel kNN-CTC-based code-switching ASR (CS-ASR) framework that employs dual monolingual datastores and a gated datastore selection mechanism to reduce noise interference. Our method selects the appropriate datastore for decoding each frame, ensuring the injection of language-specific information into the ASR process. We apply this framework to cutting-edge CTC-based models, developing an advanced CS-ASR system. Extensive experiments demonstrate the remarkable effectiveness of our gated datastore mechanism in enhancing the performance of zero-shot Chinese-English CS-ASR.

arxiv情報

著者 Jiaming Zhou,Shiwan Zhao,Hui Wang,Tian-Hao Zhang,Haoqin Sun,Xuechen Wang,Yong Qin
発行日 2025-01-08 16:45:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク