MM-KWS: Multi-modal Prompts for Multilingual User-defined Keyword Spotting

要約

この論文では、テキストと音声テンプレートのマルチモーダル登録を活用した、ユーザー定義のキーワード スポッティングへの新しいアプローチである MM-KWS を提案します。
テキストまたは音声の特徴のいずれかのみに焦点を当てた以前の方法とは異なり、MM-KWS は両方のモダリティから音素、テキスト、および音声の埋め込みを抽出します。
これらの埋め込みはクエリ音声埋め込みと比較され、ターゲット キーワードが検出されます。
MM-KWS をさまざまな言語に適用できるようにするために、いくつかの事前トレーニング済み多言語モデルを組み込んだ特徴抽出機能を利用します。
次に、中国語と英語のタスクでの有効性を検証します。
さらに、ハードケースマイニング用の高度なデータ拡張ツールを統合し、混同しやすい単語の区別における MM-KWS を強化しました。
LibriPhrase および WenetPhrase データセットの実験結果は、MM-KWS が従来の方法よりも大幅に優れていることを示しています。

要約(オリジナル)

In this paper, we propose MM-KWS, a novel approach to user-defined keyword spotting leveraging multi-modal enrollments of text and speech templates. Unlike previous methods that focus solely on either text or speech features, MM-KWS extracts phoneme, text, and speech embeddings from both modalities. These embeddings are then compared with the query speech embedding to detect the target keywords. To ensure the applicability of MM-KWS across diverse languages, we utilize a feature extractor incorporating several multilingual pre-trained models. Subsequently, we validate its effectiveness on Mandarin and English tasks. In addition, we have integrated advanced data augmentation tools for hard case mining to enhance MM-KWS in distinguishing confusable words. Experimental results on the LibriPhrase and WenetPhrase datasets demonstrate that MM-KWS outperforms prior methods significantly.

arxiv情報

著者 Zhiqi Ai,Zhiyong Chen,Shugong Xu
発行日 2024-06-11 14:38:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク