An End-to-End Approach for Korean Wakeword Systems with Speaker Authentication

要約

ウェイクワード検出は、AI アシスタントがユーザーの声を聞き、効果的に対話できるようにする上で重要な役割を果たします。
ただし、英語以外の言語では、事前トレーニングされたウェイクワード モデルが大幅に不足しています。
さらに、ウェイクワードの存在を単に判断するだけのシステムでは、プライバシーに関する重大な懸念が生じる可能性があります。
この論文では、英語以外の言語、特に韓国語のウェイクワードをトレーニングし、これを使用してユーザーのプライバシーを保護する音声認証モデルを開発するエンドツーエンドのアプローチを提案します。
私たちの実装では、FCN (完全接続ネットワーク) アーキテクチャを使用してウェイクワード検出を実行するオープンソース プラットフォーム OpenWakeWord を採用しています。
ウェイクワードが検出されると、カスタム開発されたコードがコサイン類似度を計算して堅牢なユーザー認証を実現します。
実験結果は、私たちのアプローチの有効性を実証し、ウェイクワード検出と音声認証でそれぞれ 16.79% と 6.6% の等誤り率 (EER) を達成しました。
これらの調査結果は、韓国ユーザーに安全かつ正確なウェイクワード検出と認証を提供するモデルの可能性を強調しています。

要約(オリジナル)

Wakeword detection plays a critical role in enabling AI assistants to listen to user voices and interact effectively. However, for languages other than English, there is a significant lack of pre-trained wakeword models. Additionally, systems that merely determine the presence of a wakeword can pose serious privacy concerns. In this paper, we propose an end-to-end approach that trains wakewords for Non-English languages, particulary Korean, and uses this to develop a Voice Authentication model to protect user privacy. Our implementation employs an open-source platform OpenWakeWord, which performs wakeword detection using an FCN (Fully-Connected Network) architecture. Once a wakeword is detected, our custom-developed code calculates cosine similarity for robust user authentication. Experimental results demonstrate the effectiveness of our approach, achieving a 16.79% and a 6.6% Equal Error Rate (EER) each in the Wakeword Detection and the Voice Authentication. These findings highlight the model’s potential in providing secure and accurate wakeword detection and authentication for Korean users.

arxiv情報

著者 Geonwoo Seo
発行日 2025-01-21 15:02:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS, I.2.7 パーマリンク