An End-to-End Approach for Korean Wakeword Systems with Speaker Authentication


ウェイクワード検出は、AI アシスタントがユーザーの声を聞き、効果的に対話できるようにする上で重要な役割を果たします。
ただし、英語以外の言語では、事前トレーニングされたウェイクワード モデルが大幅に不足しています。
私たちの実装では、FCN (完全接続ネットワーク) アーキテクチャを使用してウェイクワード検出を実行するオープンソース プラットフォーム OpenWakeWord を採用しています。
実験結果は、私たちのアプローチの有効性を実証し、ウェイクワード検出と音声認証でそれぞれ 16.79% と 6.6% の等誤り率 (EER) を達成しました。


Wakeword detection plays a critical role in enabling AI assistants to listen to user voices and interact effectively. However, for languages other than English, there is a significant lack of pre-trained wakeword models. Additionally, systems that merely determine the presence of a wakeword can pose serious privacy concerns. In this paper, we propose an end-to-end approach that trains wakewords for Non-English languages, particulary Korean, and uses this to develop a Voice Authentication model to protect user privacy. Our implementation employs an open-source platform OpenWakeWord, which performs wakeword detection using an FCN (Fully-Connected Network) architecture. Once a wakeword is detected, our custom-developed code calculates cosine similarity for robust user authentication. Experimental results demonstrate the effectiveness of our approach, achieving a 16.79% and a 6.6% Equal Error Rate (EER) each in the Wakeword Detection and the Voice Authentication. These findings highlight the model’s potential in providing secure and accurate wakeword detection and authentication for Korean users.


著者 Geonwoo Seo
発行日 2025-01-21 15:02:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS, I.2.7 パーマリンク