要約
無声音声認識 (SSR) については、いくつかのセンシング技術が提案されています。
しかし、これらの方法の多くは、侵襲的なプロセスや粘着テープや接着剤を使用したセンサーの皮膚への取り付けを必要とするため、日常生活で頻繁に使用するのには適していません。
対照的に、インパルス無線超広帯域 (IR-UWB) レーダーはユーザーの咬合器や関連する身体部分と物理的に接触することなく動作することができ、SSR にいくつかの利点をもたらします。
これらの利点には、高範囲解像度、高い透過性、低消費電力、外部光や音の干渉に対する堅牢性、スペースに制約のあるハンドヘルド デバイスに組み込むことができる機能などが含まれます。
この研究では、4 種類の音声刺激 (母音、子音、単語、フレーズ) を使用して、IR-UWB レーダーベースの非接触 SSR を実証しました。
これを達成するために、IR-UWB レーダーベースの SSR 用に特別に設計された新しい音声特徴抽出アルゴリズムが提案されています。
各音声刺激は、抽出された音声特徴に分類アルゴリズムを適用することによって認識されます。
分類タスクでは、多次元動的タイムワーピング (MD-DTW) とディープ ニューラル ネットワーク隠れマルコフ モデル (DNN-HMM) の 2 つの異なるアルゴリズムが比較されました。
さらに、より高い認識精度を達成するために、レーダー アンテナの適切な位置 (ユーザーの唇の前またはユーザーの顎の下) が決定されました。
実験結果は、母音、子音、単語、フレーズを分類するために、提案された音声特徴抽出アルゴリズムと DNN-HMM を組み合わせることの有効性を実証しました。
特に、この研究は、非接触レーダーを使用した音素レベルの SSR の最初の実証を表しています。
要約(オリジナル)
Several sensing techniques have been proposed for silent speech recognition (SSR); however, many of these methods require invasive processes or sensor attachment to the skin using adhesive tape or glue, rendering them unsuitable for frequent use in daily life. By contrast, impulse radio ultra-wideband (IR-UWB) radar can operate without physical contact with users’ articulators and related body parts, offering several advantages for SSR. These advantages include high range resolution, high penetrability, low power consumption, robustness to external light or sound interference, and the ability to be embedded in space-constrained handheld devices. This study demonstrated IR-UWB radar-based contactless SSR using four types of speech stimuli (vowels, consonants, words, and phrases). To achieve this, a novel speech feature extraction algorithm specifically designed for IR-UWB radar-based SSR is proposed. Each speech stimulus is recognized by applying a classification algorithm to the extracted speech features. Two different algorithms, multidimensional dynamic time warping (MD-DTW) and deep neural network-hidden Markov model (DNN-HMM), were compared for the classification task. Additionally, a favorable radar antenna position, either in front of the user’s lips or below the user’s chin, was determined to achieve higher recognition accuracy. Experimental results demonstrated the efficacy of the proposed speech feature extraction algorithm combined with DNN-HMM for classifying vowels, consonants, words, and phrases. Notably, this study represents the first demonstration of phoneme-level SSR using contactless radar.
arxiv情報
著者 | Sunghwa Lee,Younghoon Shin,Myungjong Kim,Jiwon Seo |
発行日 | 2023-12-15 07:04:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google