AraSpot: Arabic Spoken Command Spotting

要約

音声キーワード スポッティング (KWS) は、オーディオ ストリーム内のキーワードを識別するタスクであり、音声アシスタントをアクティブにしてハンズフリー タスクを実行するために、エッジのスマート デバイスで広く使用されています。
一方では高精度を達成すると同時に、そのようなシステムが低電力で計算能力が制限されている可能性のあるデバイスで効率的に動作し続けることを保証する必要があるため、この作業は困難です。
この作業では、さまざまなオンライン データ拡張を使用し、ConformerGRU モデル アーキテクチャを導入して、40 のアラビア語キーワードでトレーニングされたアラビア語キーワード スポッティング用の AraSpot を紹介します。
最後に、合成データ生成用のテキスト読み上げモデルをトレーニングすることにより、モデルのパフォーマンスをさらに向上させます。
AraSpot は、これまでのアプローチを上回る最先端の SOTA 99.59% の結果を達成しました。

要約(オリジナル)

Spoken keyword spotting (KWS) is the task of identifying a keyword in an audio stream and is widely used in smart devices at the edge in order to activate voice assistants and perform hands-free tasks. The task is daunting as there is a need, on the one hand, to achieve high accuracy while at the same time ensuring that such systems continue to run efficiently on low power and possibly limited computational capabilities devices. This work presents AraSpot for Arabic keyword spotting trained on 40 Arabic keywords, using different online data augmentation, and introducing ConformerGRU model architecture. Finally, we further improve the performance of the model by training a text-to-speech model for synthetic data generation. AraSpot achieved a State-of-the-Art SOTA 99.59% result outperforming previous approaches.

arxiv情報

著者 Mahmoud Salhab,Haidar Harmanani
発行日 2023-03-29 12:22:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク